Skip to content

Lập trình trong Big data

Một sinh viên viết: “Vì Big data có nhu cầu cao trong mọi ngành công nghiệp, em cần kĩ năng lập trình nào để làm việc trong khu vực này? Xin thầy giúp.”

 

Đáp: Đa số công việc về Big data ngày nay được lập trình trong R, Python, Java, và MatLab. Nếu bạn muốn làm lập trình cho phân tích Big data, Python có lẽ là ngôn ngữ lập trình đầu tiên mà tôi khuyên dùng. Python dễ học với một số năng lực khai phá dữ liệu và phân tích thống kê. Nó cũng có nhiều bộ công cụ và cộng đồng hỗ trợ mạnh. Ngôn ngữ phổ biến khác là R, nó là ngôn ngữ đơn giản và phổ biến nơi bạn có thể xử lí tập dữ liệu phức tạp, thao tác dữ liệu qua các hàm mô hình hoá phức tạp, và tạo ra đồ thị để biểu diễn các con số, chỉ vài dòng mã. Theo một báo cáo công nghiệp, hiện thời có trên 2 triệu người dùng R trong dự án Big data, đặc biệt trong mô hình hoá dữ liệu. Mặc dầu hầu hết các đại học đang dạy Java như ngôn ngữ lập trình cơ bản nhưng Java không cung cấp cùng phẩm chất như R và Python cung cấp, vì nó KHÔNG được thiết kế cho mô hình hoá thống kê. MatLab là ngôn ngữ lập trình khác trong khu vực Big data nhưng nó không phổ biến trong công nghiệp. Mathlab được dùng chủ yếu trong nghiên cứu của đại học.

 

—English version—

 

Programming in Big data

A student wrote: “Since Big data is in high demand in every industry, what programming skills do I need to work in this area? Please help.”

 

Answer: The majority of Big data works today is programmed in R, Python, Java, and MatLab. If you want to do programming for Big data analytics, Python is probably the first programming language that I recommend. Python is easy to learn with some data mining and statistical analysis capability. It also has a lot of toolkits and strong support community. Another popular language is R, it is a simple and popular language where you can process complex data sets, manipulate data through sophisticated modeling functions, and create graphics to represent the numbers, in just a few lines of code. According to industry report, currently there is over 2 million people use R in Big data projects, especially in data modeling. Although most universities are teaching Java as the basic programming language but Java does not provide the same quality as R and Python do, as it is NOT designed for statistical modeling. MatLab is another programming language in Big data area but it is not popular in the industry. Mathlab is used mostly in university’s research.