Kĩ nghệ Trí tuệ nhân tạo- Các khái niệm : Trí tuệ nhân tạo, thuật giải, học máy, tiền xử lí

Trích ra từ video (00:00-12:35) tại

https://drive.google.com/file/d/1AhVDvTKGMaYKLSQe6LMVdPYyqTz0uavB/view?usp=sharing

Chào các bạn, chào mừng các bạn tới với các bài giảng về Kĩ nghệ Trí tuệ nhân tạo. Đây là phần 1 của loạt bài về Kĩ nghệ Trí tuệ nhân tạo mà chúng tôi dạy tại Đại học Carnegie Mellon. Tên tôi là John Vũ, tôi là Giám đốc Chương trình Master trong Phát kiến công nghệ và Trí tuệ nhân tạo. Tôi cũng là giáo sư đặc biệt về Khoa học máy tính.

Đây là phần 1 của loạt bài giảng này. Chúng ta hãy bắt đầu về Trí tuệ nhân tạo. Có lẽ nhiều người trong các bạn đã nghe nói về trí tuệ nhân tạo. Một số trong các bạn có thể làm việc trong trí tuệ nhân tạo. Một số trong các bạn có thể làm việc ở một số lĩnh vực liên quan. Nhưng có nhiều ồn ào và nhiều vấn đề tôi muốn đề cập tới trong bài giảng thứ nhất này.

Trước hết, chúng ta hãy nhìn vào vài trích dẫn thú vị về trí tuệ nhân tạo hay AI. Chẳng hạn, “Trí tuệ nhân tạo giống như dục với thanh thiếu niên: mọi người nó về nó, không ai biết làm nó, nhưng mọi người nghĩ mọi người khác đang làm nó.” Cùng điều này là đúng rằng có nhiều ồn ào và nhiều việc nói về Trí tuệ nhân tạo. Bạn có thể thấy điều đó trong đa phương tiện, bạn có thể thấy trong Facebook, bạn có thể thấy trong Tweeter, bạn có thể thấy trong mọi loại tạp chí. Nhưng với 45 năm kinh nghiệm trong công nghiệp tôi có thể nói rằng có rất ít người có thể làm trí tuệ nhân tạo một cách đúng đắn với kết quả có ý nghĩa. Tôi đã từng làm việc trong lĩnh vực này từ nhiều năm rồi. Tôi cũng là kĩ sư trưởng của Boeing. Và tôi cũng chịu trách nhiệm cho máy bay Boeing 777. Chúng ta đã thu thập dữ liệu, phân tích dữ liệu và dùng dữ liệu trong thời gian dài.

Một trích dẫn thú vị khác mà chúng ta thấy trong tạp chí là “Bạn không thể biết liệu máy đã có được thông minh hơn hay liệu bạn chỉ hạ thấp chuẩn thông minh riêng của bạn tới mức độ rằng máy dường như thông minh nhiều hơn.” Có nhiều lo sợ về trí tuệ nhân tạo. Mọi người sợ rằng một ngày nào đó máy sẽ có được thông minh nhiều hơn và có thể tiêu diệt nhân loại. Tôi đoán rằng nhiều người trong các bạn đã xem bộ phim tên là the Terminator và cái gì đó giống thế và các bạn lo nghĩ về ngày tận thế sắp tới. Điều đó là không chắc chắn. Tôi không nghĩ điều đó sẽ xảy ra.

Vấn đề khác về trí tuệ nhân tạo là việc phát triển của trí tuệ nhân tạo có thể báo hiệu tận số cho loài người. Chẳng hạn, một robot y tế thông minh để điều trị ung thư có thể đi tới quyết định rằng cách tốt nhất để xoá sạch ung thư là giết những người có nguồn gen sinh ra bệnh này.

Vâng, đó là những giả thuyết. Nhưng tôi muốn bạn nhìn vào trong trí tuệ nhân tạo như một kĩ thuật hay công cụ mà chúng ta có thể dùng nếu chúng ta có thể dùng một cách thông minh hơn và tốt hơn. Cho nên theo quan điểm của tôi, tôi không nghĩ AI là cái gì đó chúng ta phải sợ. Tôi nghĩ chúng ta phải nhìn vào AI như công cụ.

Chúng ta đã từng dùng máy tính, chúng ta đã từng dùng nhiều thứ nếu bạn nhìn lại trong lịch sử. Khi máy tính được phát minh ra, nhiều người đã sợ điều đó. Ngày nay mọi người đều có máy tính trong túi của họ. Và họ đã dùng nó. Vâng, có nhiều quan điểm về trí tuệ nhân tạo và Robotics rằng chúng sẽ lấy đi việc làm của con người. Sẽ có một số việc làm bị phá bỏ, mất đi. Nhưng có nhiều việc làm mới được tạo ra.

Cho nên nếu bạn học trí tuệ nhân tạo, nếu bạn học máy tính, các đe doạ là chắc chắn. Bạn không lo nghĩ về điều đó. Nhưng bạn phải đặt vào trong não suy nghĩ của bạn về bạn có thể là thông minh thế nào để đánh bại máy.

Cho nên chúng ta hãy bắt đầu bằng một số vấn đề nền tảng. Trí tuệ nhân tạo là gì? Trí tuệ nhân tạo là một nhánh của khoa học máy tính hội tụ vào việc xây dựng máy hay máy tính mà có thể mô phỏng hành vi thông minh của con người. Bất kì cái gì con người có thể làm, có thể rằng máy cũng có thể làm. Và có thể chúng còn có thể làm điều đó tốt hơn. Phần lớn các hệ thống trí tuệ nhân tạo có thể thực hiện các nhiệm vụ mà về truyền thống được liên kết với thông minh của con người như cảm nhận việc nhìn, nhận dạng tiếng nói, làm quyết định, và dịch ngôn ngữ. Và tất nhiên còn nhiều nữa.

Một số máy tính với những thuật giải và phần mềm thông minh có thể thực hiện những điều nào đó mà con người có thể làm. Chúng có thể lập kế hoạch, chúng có thể học, chúng có thể suy luận, chúng có thể nhận diện chuyển động, chúng có thể thao tác cái gì đó ở phạm vi lớn hơn hay phạm vi nhỏ hơn. Và chúng dường như thông minh hơn. Tuy nhiên, chúng ta có cái gì đó mà máy không bao giờ có thể thay thế được. Chúng ta có điều chắc chắn mà chúng ta gọi là xúc động, chúng ta có điều chắc chắn mà chúng ta gọi là luân lí, chúng ta có điều chắc chắn mà chúng ta gọi là đạo đức. Và tôi không nghĩ những điều này trí tuệ nhân tạo có thể làm được. Cho nên điều đó là chắc chắn: Trí tuệ nhân tạo là công cụ mà chúng ta có thể dùng nếu chúng ta biết cách dùng nó thông minh hơn. Nhưng nó không phải là cái gì đó mà sẽ có khả năng thay thế con người.

Thuật ngữ khác đôi khi làm mọi người bối rối là thuật ngữ thuật giải. Chúng ta hãy quay lại các định nghĩa cơ bản nền tảng về thuật giải. Thuật giải là một quá trình hay một tập các qui tắc được tuân theo trong tính toán để giải quyết vấn đề bằng máy tính. Mọi người nghiên cứu về khoa học máy tính đều hiểu thuật giải, nó ngụ ý cái gì. Đôi khi nó cũng ngụ ý một chuỗi các chỉ lệnh toán học được tạo ra cho máy tuân theo, chỉ lệnh từng bước một cho máy tính thực hiện. Trong hệ thống trí tuệ nhân tạo, người lập trình tạo ra thuật giải, cái chỉ thị cho máy tính nhìn vào dữ liệu nào đó, nhận diện vấn đề, học từ mọi nỗ lực để giải vấn đề đó, và cuối cùng tự nó biết cách giải quyết vấn đề mà không được dạy, không được lập trình và điều này được gọi là học máy. 

Cho nên chúng ta hãy nhìn vào nó trong phần tiếp. Chúng ta ngụ ý gì bởi học máy. Trí tuệ nhân tạo có thể được dạy để thực hiện một số nhiệm vụ mà không được lập trình xác định. Chẳng hạn, nhiều người trong các bạn đã dùng chương trình Siri của Apple đúng không? Bộ nhận diện ngôn ngữ và tiếng nói đó? Khi tôi đi du lịch tới nước nào đó tôi đã dùng Siri cho một số việc dịch hay hỏi đường hướng, mua đồ trong nhà hàng. Và đôi khi tôi đã dùng Siri tôi nghĩ nó là phần mềm rất rất thú vị để dùng.

Ngày nay các bạn nghe nhiều về xe tự lái. Hệ thống nhận diện việc nhìn trong xe tự lái cũng là phần mềm trí tuệ nhân tạo.

Và nếu bạn mua các thứ trực tuyến từ Amazon, bạn có thể thấy Amazon giới thiệu những sản phẩm nào đó mà có thể bạn quan tâm, và đưa ra một số giới thiệu. Đó cũng là hệ thống dựa trên trí tuệ nhân tạo.

Tất cả những thuật giải đó, tất cả những phần mềm đó có thể học hay có thể được nói cho để thực hiện những nhiệm vụ xác định dựa trên khối lượng dữ liệu dạy cho chúng. Cho nên càng nhiều dữ liệu càng tốt. Do đó dữ liệu là nền tảng then chốt của trí tuệ nhân tạo. Máy sẽ không thể học được bất kì cái gì nếu không có khối lượng dữ liệu nào đó. Cho nên khi chúng ta nói về khối lượng dữ liệu, chúng ta đang nói về nhiều dữ liệu, nhiều dữ liệu cho máy học.

Nhưng dữ liệu tới trong đa dạng thức. Bạn có dữ liệu văn bản, bạn có dữ liệu tiếng nói, bạn có dữ liệu hình ảnh, bạn có mọi loại dữ liệu. Bạn có dữ liệu có cấu trúc, và bạn cùng có dữ liệu phi cấu trúc. Do đó tất cả những dữ liệu đó phải được tiền xử lí, phải được làm sạch. Vì với tiếng ồn không có việc lọc nhiều trong những dữ liệu đó là vô nghĩa.

Cho nên cái nhìn cuối cùng, một trong những khía cạnh then chốt mà tôi không nhìn nhận được nhiều chú ý là điều tôi gọi là tiền xử lí. Và đây là cái gì đó tôi thực muốn tất cả các bạn người học trong trí tuệ nhân tạo cần chú ý nhiều hơn. Vì phần lớn dữ liệu ngày nay là không đầy đủ, không nhất quán, sai lỗi, dư thừa và bất định, thiếu hành vi được huấn luyện nào đó. Do đó việc tập hợp dữ liệu, thu thập dữ liệu, ở nhiều nhiều chỗ thường là lỏng lẻo. Mọi người thu thập mọi kiểu dữ liệu điều làm nảy mọi loại vấn đề mà mọi dự án trí tuệ nhân tạo đang phải đối diện ngày nay. Bởi vì dữ liệu tới mà thiếu cái gì đó quan trong và thiếu xu hướng nào đó, thiếu giá trị nào đó. Do đó nếu chúng không được kiểm tra và lọc cẩn thận, vấn đề có thể là rất rất sai lạc.

Có nhiều dữ liệu không liên quan và dữ liệu dư thừa. Tôi đã làm việc về máy bay, tôi đã thấy, chẳng hạn trên cánh máy bay chúng tôi để tới 20 nghìn cảm biến. Mọi cảm biết đều thu thập dữ liệu từ các rung động, từ luồng khí, từ mọi loại vấn đề trên nó. Và vì có nhiều các cảm biến đó nên có mọi loại dư thừa. Cho nên bạn thực sự phải làm việc tiền lọc nào đó để chắc rằng dữ liệu bạn thu thập là được dán nhãn đúng, được tính toán đúng và cho bạn dữ liệu sạch nhất có thể cho máy học.

Trong pha huấn luyện của bất kì máy nào điều rất rất quan trọng là có dữ liệu tốt với nhãn tốt và nội dung tốt. Để cho bạn có thể thực hiện việc học máy tốt hơn nhiều nhiều, chính xác tốt hơn và cho bạn độ tin cậy cao.

Tiền xử lí dữ liệu thực sự là kĩ thuật khai phá dữ liệu để biến đổi mọi dữ liệu thô này thành các dạng thức hiểu được nào đó mà bạn có thể thiết kế. Cho nên việc dán nhãn dữ liệu là rất rất quan trọng. Thông thường việc tiền xử lí dữ liệu bao gồm làm sạch, lựa chọn, chuẩn hoá, biến đổi và trích rút và chọn lựa tính năng. Chúng ta sẽ nói về tiền xử lí dữ liệu trong bài giảng tiếp.

—English version—

Artificial Intelligence – Concepts : Artificial Intelligence, algorithm, machine learning, pre-processing

Extract from video (00:00-12:35)

https://drive.google.com/file/d/1AhVDvTKGMaYKLSQe6LMVdPYyqTz0uavB/view?usp=sharing

Hi, welcome to the Artificial Intelligence Engineering lectures. This is part 1 of a series of the Artificial Intelligence Engineering that we have at the Carnegie Mellon University. My name is John Vũ, I am the Director of the Master Program in Technology Innovation and Artificial Intelligence. I am also the Distinguished Professor of Computer Science.

This is part 1 of the lecture series. Let’s start of the Artificial Intelligence. Probably many of you have heard about Artificial Intelligence. Some of you may work in Artificial Imtelligence. Some of you may work in some related fields. But there are some a lot of noises and a lot of isues that I want to address in this first lecture.

First, let’s look at some interesting quotes about Artificial Intelligence or AI. For example, “Artificial Inteligence is like teenage sex: everyone talks about it, nobody knows how to do it, but everyone think everyone else is doing it.” The same thing is true that a lot of noise and a lot of talk about Artificial Intelligence. You can see that in multimedia, you can see in Facebook, you can see in Tweeter, you can see in all of kind of magazines. But with 45 years of experiences in the industry I can say that there are very few people who can do artificial intelligence correctly with significant results. I have been working on this field from many years. I am also the chief engineer of Boeing. And I am also the responsible for the Boeing 777. We have been collecting data, analyse data and use data for a long time.

Another interesting quote that we see in the magazine is “You cannot tell if a machine has gotten smarter or if you’ve just lowered your own standards of intelligence to such a degree that the machines seem much more smarter.” There is a lot of fear about the Artificial Intelligence. People are afraid that some day the machine would get much smarter and can destroy humanity. I guess that many of you have seen the movie called the Terminator and something like that and you worried about the doomsday coming ahead. That aren’t sure. I don’t think it would happen.

The another issue about the Artificial Intelligence is the development of Artificial Intelligence could spell the doom for the human race. For example, a smart medical robot to treate cancer, can come up with the conclusion that the best way to obliterate cancer is to kill people who are genetically prone to the disease.

Yes, those are the hypotheses. But I want you to look into the Artificial Intelligence as a technique or a tool that we can use if we can use smarter and better. So in my point of view, I don’t think AI as something we shoud be afraid of. I think we have to look at the AI as a tool.

We have been using computers, we have been using many things if you look back in the history. When computers were invented, many people were afraid of that. Today almost everybody has a computer in their pocket. And they have been using it. Yes, there are a lot of notions about Artificial Intelligence and Robotics will take away the jobs of people. There would be some jobs being destroyed, gone away. But there are a lot of new jobs be created.

So if you study Artificial Intelligence, if you study computers, threats are sure. You don’t have worried about that. But you have to put in your thingking brain about how smart you can be to beat the machine.

So let’s start with some fundamental questions. What is Artificial Intelligence? Artificial Intelligence is a branch of computer science that focused on the building a machine or computer that can simulate human intelligent behaviors. Whatever people can do, maybe that machine can also do. And maybe they can do it better. Most of the Artificial Intelligent systems can perform the tasks traditionally associated with human intelligence such as visual perception, speech recognition, decision making, and translation languages. And of course many more.

Some computers with smart algorithms and software can perform certain things that people can do. They can plan, they can learn, they can reasoning, they can solve some problems, they can represent some knowledge, they can perceive something, they can identify motions, they can manipulate something to larger extend or less extend. And they seem to be smarter. However, we have something that machine can never replace. We have certain thing we call emotions, we have certain thing we call ethics, we have certain things we call moral. And I do not think these things the artificial intelligence can do that. So that are sure: Artificial Intelligence is the tool that we can use if we know how to use it smarter. But this is not something that would be able to replace a human being.

Another term that sometime can confuse people is the term algorithm. Let’s go back to the fundamental basic definitions of the algorithm. An algorithm is a process or a set of rules to be followed in calculation to solve problems by a computer. Everybody who study computer science understand algorithm, what it means. Sometime it also means a series of mathematical instructions created for the machine to follow. A step by step instruction for a computer to do. In an artificial intelligence system, a programmer creates an algorithm, that instructs the computer to look at some data, identify the problems, learn from all attempts to solve that problem, and eventually know how to solve the problem itself without being taugh, without being programmed and this is called machine learning. 

So let’s look it into a next one. What do we mean by machine learning. Artificial Intelligence can be taught to carry a number of tasks without being specificly programmed. For example, many of you have used Apple’s Siri? Speech and language recognition? When I travel to certain country I used a Siri for some translations or ask for directions, purchase things in the restaurants. And sometime I used Siri I think it is very very interesting software to use.

Today you heard a lot about the self-driving car. The vision-recognition systems in the self-driving car is also an Artificial Intelligence software.

And if you buy things online from Amazon, you can see the Amazon recommends certain products that maybe you are interesting in, and makes some recommendations. That is also an Artificial Intelligence based system.

All of those algorithms, all of those software can learn or can be talked to do specific tasks based on the amount data that trains them. So the more data the better. Therefore a data is a key fundamental of artificial intelligence. The machine would not be able to learn anything without certain amount of data. So when we are talking about the amount of data, we are talking about a lot of data, a lot of data for the machine to learn.

But data come in various forms. You have text data, you have voice data, you have image data, you have all kind of data. You have structured data, and you also have unstructured data. Therefore all those data have to be pre-processing, have to be cleaned up. Because with the noises without filting many of those data are meaningless.

So the last look, one of the key aspects that I do not think that receives much attention is I call pre-processing. And this is something I do want all of you who learn in artificial intelligence need to pay more attention. Because most of the data today are incomplete, inconsistence, errorness, redundancy and uncertainness, lacking of a certain trained behaviour. Therefore gathering data, collecting data, in many many places are ussually loosely. People collect all types of data in which results all kind of problems that every artificial intelligence projects are facing today. There because the data coming in missing something important and missing some trends, missing some values. Therefore if they are not carefully screened and filtered the problem can be very very misleading.

There are lot of irrelevent data and redundant data. I worked on airplanes, I have seen, for example, on the wings of the airplane we put 20 thousand sensors. All sensors is collecting data from vibrations, from air flows, from all kind of things on it. And because there are so many of them that all of kind of redundancy. So you really have to do some pre-filtering to make sure that the data you collect are properly labelled, are properly calculated and giving you as clean as possible for the machine to learn.

Durring the training phase of any machine it is very very important to have a good data with good label and good content. So you can perform the machine learning much much better accurate and giving you a high reliability.

Data pre-processing is really a data mining technique to transform all these raw data into some understandable formats that you can design. So labelling the data is very very important. Usually a data pre-processing is including cleaning, selection, normalization, transformation and feature extraction and selection. We will talk about the data pre-processing in a next lecture.