Skip to content

Big Data – Dữ liệu lớn

Khi công nghệ thông tin đang được dùng nhiều hơn trong mọi doanh nghiệp, khối lượng dữ liệu cũng tăng lên nhiều và trong thời gian ngắn, phần lớn doanh nghiệp sẽ có nhiều dữ liệu hơn họ có thể hình dung. Theo một báo cáo công nghiệp, nhiều công ti sẽ dùng từ 100 terabytes (TB) và 9 petabytes (PB) dữ liệu và khối lượng dữ liệu sẽ gấp đôi cứ sau 18 tháng. (Nghĩ về luật Moore). Mọi ngày, dữ liệu được sinh ra từ mọi kiểu nguồn.

Chẳng hạn, Twitter nhận được 200 triệu tin nhắn một ngày hay 46 megabytes một giây; Facebook thu thập trung bình 15 Terabytes mỗi ngày. Google báo cáo rằng từng ngày bẩy triệu trang web được thêm vào Internet. Công nghiệp kinh doanh trực tuyến thêm 12 triệu giao tác hay 25 petabytes dữ liệu mỗi giờ. Công nghiệp viễn thông có trên 5 tỉ người dùng điện thoại trên thế giới. Mỗi ngày 2 tới 3 tỉ người dùng truy nhập vào internet để đọc, tìm mọi kiểu thông tin; mọi người cũng tương tác với nhau bằng emails, tin nhắn v.v. Tất cả những điều này cũng làm phát sinh nhiều dữ liệu hơn trước đây. Vì khối lượng là lớn thế, tới từ đa dạng nguồn, phần lớn dữ liệu đều phi cấu trúc và bên ngoài việc xử lí của công cụ quản lí dữ liệu hiện thời, nó yêu cầu cách tiếp cận mới, công cụ mới để thu thập và phân tích dữ liệu cho nên nó được cho cái tên là “Big Data”.

Big Data được coi là “thứ lớn tiếp sau” tương tự như máy tính cá nhân trong những năm 1970 và Internet trong những năm 1990. Nếu chúng ta nhìn vào lịch sử ngắn ngủi của công nghệ thông tin về dữ liệu chúng ta có thể thấy tại sao. Trong những năm 1980 Quản lí hệ thống cơ sở dữ liệu quan hệ (RDBS) chỉ là những hệ thống cơ sở dữ liệu thông thường được dạy trong chương trình Quản lí hệ thông tin. Tuy nhiên với bùng nổ của công nghệ thông tin khi nhiều công ti thu thập dữ liệu, đột nhiên RDBS phát triển thành kinh doanh nhiều tỉ đô la với các công ti như Oracle và SAP. Trong những năm 1990, truy lục thông tin và động cơ tìm kiếm đã là vài môn học được dạy trong chương trình chuyên sâu khoa học máy tính nhưng với tăng trưởng của Internet, nó đã biến thành kinh doanh nhiều tỉ đô la với công ti như Google. Ngày nay với Big Data, công cụ cơ sở dữ liệu và cơ sở dữ liệu như RDBS hay SQL sẽ không có tác dụng nữa vì dữ liệu quá lớn và quá phi cấu trúc. Có việc xô vào tìm “thứ lớn” tiếp mà có thể giải quyết cho Big Data. Hiện thời chúng ta đang ở ngưỡng cửa của một biến cố đột phá khác, nơi bất kì ai có thể “làm chủ nó″ sẽ phát đạt và có thể trở thành Bill Gates tiếp.

Nhiều chính phủ coi Big Data như công nghệ có tác động cao nhất trên thế giới ngày nay và nó sẽ có ảnh hưởng sâu sắc lên mọi thứ trong thế kỉ này. Big Data cũng trình ra cơ hội lớn cho sinh viên CNTT người làm chủ tri thức và kĩ năng này trong thu thập, tổ chức và phân tích khối lượng dữ liệu khổng lồ này và biến nó thành thông tin có ích cho ưu thế cạnh tranh. (Công thức: Big Data  = Tri thức lớn = Thông tin lớn = Ưu thế lớn) Nghiên cứu công nghiệp thấy rằng vào lúc này, chỉ rất ít công ti có công việc trên Big Data nhưng họ đã là tốt hơn mọi đối thủ cạnh tranh của họ, những người không được chuẩn bị, bởi ưu thế lớn.

Sinh viên quan tâm tới Big Data sẽ cần tri thức và kĩ năng nào đó trong: lập trình Java, truy lục thông tin, khai phá văn bản, tích hợp hệ thống qui mô lớn; MapReduce (một mô thức lập trình tạo khả năng cho xử lí song song); Apache “Hadoop” (khuôn khổ xử lí và lưu giữ nguồn mở dựa trên MapReduce, dùng hệ thống tệp phân bố);  NoSQL(một lớp cơ sở dữ liệu phi quan hệ, phi SQL bao gồm lưu giữ tài liệu, lưu giữ khoá-giá trị, và cơ sở dữ liệu đồ hoạ được thiết kế cho làm việc với số lượng dữ liệu khổng lồ); BigTable (một kiểu cơ sở dữ liệu NoSQL có tính đổi qui mô cao, thưa, phân bố, ánh xạ phân loại đa chiều bền); Học máy (khu vực trí tuệ nhân tạo liên quan tới phát triển các thuật toán phức tạp lấy dữ liệu vào từ những cảm biến hay cơ sở dữ liệu để làm dự báo).

 

—-English version—-

 

Big data

 

As information technology is being used more in every business, the amount of data is also increasing significantly and within a short time, most businesses will have more data than they can imagine. According to an industry report, many companies will use between 100 terabytes (TB) and 9 petabytes (PB) of data and the volume of data will double every 18 months. (Think about Moore‘s law). Every day, data is being generated from all types of sources.

For example, Twitter receives 200 million tweets per day or 46 megabytes per second; Facebook collects an average of 15 Terabytes every day. Google reported that each day seven million web pages are added to the Internet. Online business industry add another 12 million transactions or 25 petabytes of data every hour. Telecommunication industry has over 5 billion mobile phone users in the world. Each day 2 to 3 billion users accessing the internet to read, search all types of information; people also interact with each other by emails, text messages etc. All of these also generate more data than ever before. Since the volume is so massive, came from a variety of sources, most data are unstructured and beyond the processing of current data management tools, it requires a new approach, new tools to collect and analyze data so it is given a name of “Big Data”.

Big Data is considered “The next big-thing” similar to the Personal computer in the 1970s and Internet in the 1990s. If we look at the short history of Information technology on data we can see why. In 1980s Relational Database System Management (RDBS) were just a common database systems often taught in Information System Management program. However with the explosion of information technology as more companies were collecting data, suddenly RDBS grew into multi-billion-dollar business with companies like Oracle and SAP. In 1990s, Information retrieval and Search engine were few courses taught in Computer Science advanced programs but with the growth of the Internet, it turned into a multi-billion dollars business with company like Google. Today with Big Data, current database tools and database such as RDBS or SQL will not work anymore because the data is too big and too unstructured. There is a rush to find the next “big thing” that can handle Big Data. Currently we are at the threshold of another breakthrough event, where anyone who can “master it” will thrive and could become the next Bill Gates.

Many governments consider Big Data as the highest-impact technology in the world today and it will have profound effect on everything in this century. Big Data also presents significant opportunities to IT students who master this knowledge and skills in collecting, organizing and analyzing this huge amount of data and turn it into useful information for competitive advantage. (Formula: Big Data  = Big Knowledge = Big information = Big advantage) Industry study found that at this time, only very few companies have work on Big Data but they already outperformed all of their competitors, who are unprepared, by a significant large advantage.

Students who are interested in Big Data will need certain knowledge and skills in: Java Programming, Information retrieval, Text mining, Large scale system integration; MapReduce (A programming paradigm that enables parallel processing); Apache “Hadoop” (An open-source storage and processing framework based on MapReduce, using a distributed file system.);  NoSQL(A class of non-relational, non-SQL databases that encompasses document store, key-value store, and graph databases designed for working with huge quantities of data); BigTable (A type of NoSQL database that is highly scalable, sparse, distributed, persistent multidimensional sorted map) Machine Learning (An artificial intelligence area concerned with the development of complex algorithms that take input data from sensors or databases to make predictions);.