Các chức vụ về khoa học dữ liệu

Tôi đã nhận được nhiều emails từ các sinh viên hỏi về việc làm Dữ liệu lớn ở Mĩ cũng như yêu cầu kĩ năng. Ngày nay Khoa học dữ liệu hay Dữ liệu lớn là một trong những nghề nghiệp nóng nhất trong công nghiệp công nghệ do việc bùng nổ của nhiều kiểu dữ liệu, cả có cấu trúc lẫn phi cấu trúc từ Internet, di động và mọi thiết bị điện tử.

Lĩnh vực Khoa học dữ liệu đã tăng trưởng lớn trong thập kỉ qua; do đó, các kĩ năng bắt đầu chuyên môn hơn. Một cách điển hình, người tốt nghiệp đại học có bằng cử nhân thường bắt đầu như kĩ sư dữ liệu hay người quản lí kết cấu nền dữ liệu và công cụ, người biết cách thu thập, tổ chức, lưu giữ và nhận kết quả từ khối lượng dữ liệu bao la. Chức vụ Phân tích dữ liệu thường yêu cầu bằng thạc sĩ tại đó người tốt nghiệp có kĩ năng phân tích giỏi bằng việc dùng thống kê và học máy. Nhà khoa học dữ liệu thường được liên kết với mức tiến sĩ, vị trí hội tụ chính vào nghiên cứu và dự báo xu hướng.

Tôi đã tìm nhiều việc làm được đăng từ Facebook, Google, Microsoft, và Amazon và đi tới mô tả chung như sau:

Chức vụ kĩ sư dữ liệu điển hình yêu cầu người tốt nghiệp:

  1. Có tri thức về hệ thống tính toán phân bố, biết cách quản lí cụm Hadoop, với mọi dịch vụ của nó.
  2. Thành thạo dùng Hadoop v2, MapReduce, HDFS và có khả năng giải quyết các vấn đề với việc vận hành của cụm
  3. Có tri thức tốt về các công cụ truy vấn dữ liệu lớn, như Pig, Hive, và Impala
  4. Có kinh nghiệm với cơ sở dữ liệu NoSQL, như HBase, Cassandra, MongoDB
  5. Có kinh nghiệm với Spark và việc tích hợp dữ liệu từ nhiều nguồn dữ liệu
  6. Có tri thức về các kĩ thuật ETL đa dạng và các khuôn khổ, như Flume
  7. Có kinh nghiệm với các hệ thống thông báo đa dạng, như Kafka hay RabbitMQ
  8. Có kinh nghiệm với các bộ công cụ, như Mahout, SparkML, hay H2O
  9. Có kinh nghiệm với Cloudera/MapR/Hortonworks
  10. Có kinh nghiệm với việc xây dựng các hệ thống xử lí luồng, dùng các giải pháp như Storm hay Spark-Streaming

Hiện thời (9/2018), có 6,500 vị trí mở ra ở Thung lũng Silicon (tôi thường tập trung ở đây vì tôi có thể truy nhập vào những bài đăng việc làm). Các chức vụ chạy từ kĩ sư dữ liệu, người phân tích dữ liệu, và nhà khoa học dữ liệu.  Lương hàng năm cho nhà khoa học dữ liệu: $125,000 tới $210,000. Người phân tích dữ liệu: $110,000 tới $145,000 và kĩ sư dữ liệu: $95,000 tới $120,000. Đó là tất cả mức vào nghề cho người mới tốt nghiệp gần đây. Thung lũng Silicon có lẽ có nhiều vị trí hơn các thành phố khác như Seattle, Boston, New York cho dù chi phí sống cũng cao hơn.

Do nhu cầu cao và thiếu hụt công nhân, các công ti như Apple, Google, IBM, Ernst and Young sẽ KHÔNG yêu cầu bằng đại học, với giả định rằng người xin vào có những kĩ năng này mà họ đã thu nhận bên ngoài các đại học truyền thống (qua MOOC hay những bài học trực tuyến.) Phó chủ tịch của Google, ông Laszlo Bock đã tuyên bố: “Khi các bạn nhìn vào những người không vào trường và làm ra con đường của họ trong thế giới, những người đó là người ngoại lệ. Và chúng tôi phải làm mọi điều chúng tôi có thể làm để tìm ra những người này.”

 

—English version—

 

Data Science Positions

I have received several emails from students asking about Big data jobs in the U.S. as well as the skill requirements. Today Data Science or Big Data is one of the hottest careers in the technology industry due to the explosion of multiple types of data, both structured and unstructured from the Internet, mobile and all the electronic devices.

Data Science field has grown significantly during the last decade; therefore, the skills started to be more specific. Typically, college graduates with a Bachelor’s degree often start as a Data Engineer or the person who manages data infrastructure and tools, who know how to collect, organize, store and get results from these vast amounts of data. Data Analysis position usually requires a Master’s degree where the graduates have strong analysis skills using statistics and machine learning. A Data Scientist is often associated with a Ph.D. level where the main focus is on research and predicting trends.

I searched several jobs posting from Facebook, Google, Microsoft, and Amazon and come up with a general description as follows:

A typical Data Engineer position requires graduates to:

  1. Have knowledge of distributed computing systems, know how to manage a Hadoop cluster, with all its services.
  2. Proficiency with Hadoop v2, MapReduce, HDFS and ability to solve issues with operating the cluster
  3. Good knowledge of Big Data querying tools, such as Pig, Hive, and Impala
  4. Experience with NoSQL databases, such as HBase, Cassandra, MongoDB
  5. Experience with Spark and integration of data from multiple data sources
  6. Knowledge of various ETL techniques and frameworks, such as Flume
  7. Experience with various messaging systems, such as Kafka or RabbitMQ
  8. Experience with toolkits, such as Mahout, SparkML, or H2O
  9. Experience with Cloudera/MapR/Hortonworks
  10. Experience with building stream-processing systems, using solutions such as Storm or Spark-Streaming

Currently (Sep 2018), there are 6,500 open positions in Silicon Valley (I only focus here since I can access some job posting). Position range from Data Engineer, Data Analyst, and Data Scientist.  Annual salary for Data Scientist: $125,000 to $210,000. Data Analyst: $110,000 to $145,000 and Data Engineer: $95,000 to $120,000. Those are all entry levels for recent graduates. Silicon Valley probably has more positions than other cities such as Seattle, Boston, New York even the cost of living is also higher.

Due to the high demand and shortage of workers, companies like Apple, Google, IBM, Ernst, and Young will NOT require a college degree, assume that applicants have these skills that they acquired outside of traditional universities (MOOCs or some tutorial online.) A Vice President of Google, Mr. Laszlo Bock has declared: “When you look at people who don’t go to school and make their way in the world, those are exceptional human beings. And we should do everything we can to find those people.”