Skip to main content

Chương 4: Cuộc thi nhận dạng vật thể

Chương 4: Cuộc thi nhận dạng vật thể


Sau hơn 20 năm nghiên cứu trong bóng tối, ba thầy trò Hinton, LeCun và Bengio gặp nhau vào năm 2006. Lúc này Bengio cũng đã là một giáo sư độc lập. Cả ba quyết định sẽ phải vực dậy ngành trí tuệ nhân tạo vốn đang ngủ đông. Nhưng trong vài năm tiếp theo, những nỗ lực của họ vẫn chưa thành công.


Fei-Fei Li là một giáo sư người Mỹ gốc Hoa. Sinh ra tại Trung Quốc nhưng theo gia đình di cư sang Mỹ từ năm 12 tuổi, Li đã thể hiện rõ thiên hướng nghiên cứu khoa học từ khi còn nhỏ. Tốt nghiệp viện Princeton danh giá, bà học tiếp chương trình tiến sĩ với đề tài nhận dạng hình ảnh và hoàn thành vào năm 2005. Năm tiếp theo, sau cuộc gặp gỡ với một giáo sư gạo cội, bà bước vào đại học Stanford và chọn ngành trí tuệ nhân tạo là sự nghiệp trọn đời của mình.


Trái ngược với hầu hết các nhà nghiên cứu đương thời vốn tập trung vào cải tiến thuật toán và nền tảng lý thuyết của mạng nơ-ron nhân tạo, Fei-Fei Li theo đuổi một hướng đi riêng. Sau khi quan sát cậu con trai nhỏ của mình một thời gian dài, bà rút ra kết luận: lượng dữ liệu lớn là tối quan trọng với mạng nơ-ron. Theo tính toán của bà thì từ khi ra đời, một đứa trẻ sẽ nhìn liên tục trong 16 giờ mỗi ngày, 24 hình mỗi giây. Trong vòng hai năm, đứa trẻ đã được “phơi nhiễm” với hơn 1 tỷ bức hình. Như vậy để mạng nơ-ron nhân tạo hoạt động tốt thì cần phải có một tập hợp dữ liệu vô cùng lớn (gọi tắt dữ liệu lớn - big data).


Ý tưởng về dữ liệu lớn của bà không nhận được sự ủng hộ của các nhà khoa học khác. Lúc bấy giờ, các nhà khoa học trí tuệ nhân tạo lại đang miệt mài giải quyết một vấn đề muôn thuở trong ngành thống kế học: làm sao để nhận dạng đúng vật thể với càng ít dữ liệu huấn luyện càng tốt. Để chứng minh rằng đây là một cách tiếp cận sai lầm, bà dành ba năm tiếp theo cho dự án thu thập 1 triệu bức hình của 1000 loại vật thể khác nhau. Đa số các đồng nghiệp đều chế nhạo bà, và đôi khi bà, một giáo sư đại học Stanford, phải làm những công việc tay chân để có thêm kinh phí cho dự án. Hàng chục ngàn tình nguyện viên trên thế giới cũng góp sức qua mạng Internet.


Năm 2009, dự án của Fei-Fei Li đã thu thập đủ 1 triệu bức hình dùng cho huấn luyện mô hình tự học Machine Learning, và 150,000 bức hình cho việc kiểm tra mô hình sau khi huấn luyện xong. Cùng năm, bà giới thiệu cuộc thi ImageNet để nhận dạng 1000 loại vật thể trên tập dữ liệu lớn này. Đây là tập dữ liệu công cộng quy mô nhất vào thời điểm đó.


Từ năm 2009 đến năm 2011, mỗi năm đều có nhiều đội tham gia cuộc thi ImageNet. Tất cả các mô hình Machine Learning được giới thiệu đều dựa trên nền tảng lý thuyết của ngành thống kê già nua, và không có đội nào đạt được sai số dưới 25%. Tưởng như việc nhận dạng vật thể đã rơi vào bế tắc thì ngày 30 tháng 9 năm 2012, đội thi của Hinton và các học trò giới thiệu mô hình AlexNet cải biên từ mạng Convolutional nets của LeCun và đạt sai số chỉ 15%. Đây là một chiến thắng gây choáng váng tất cả các đội thi, và gần như toàn bộ các ngành công nghiệp lúc bấy giờ. Ý tưởng về dữ liệu nhỏ cũng chính thức bị xóa sổ. Ngày nay, việc huấn luyện mô hình Machine Learning với số lượng dữ liệu vô cùng lớn đã trở thành một chân lý hiển nhiên không cần bàn cãi. Tất cả là nhờ vào sự đóng góp miệt mài của Fei-Fei Li trong hơn ba năm.


Một năm sau chiến thắng long trời lở đất của AlexNet, vào năm 2013, mọi đội thi đều sử dụng một phiên bản cải tiến nào đó của mạng Convolutional nets và đạt sai số dưới 15%. Năm 2015, đội thi của hãng Microsoft, sử dụng một mạng nơ-ron nhân tạo hơn 100 lớp, vượt qua sai số khi nhận dạng vật thể của con người. Từ nay, mạng nơ-ron nhân tạo đã đạt ngưỡng “siêu nhiên” khi nhận dạng những vật thể đơn giản. Năm 2017, sai số với tập dữ liệu ImageNet chỉ còn dưới 5%.


-------------------------


Những nỗ lực phi thường của giáo sư Fei-Fei Li đã đặt thêm một trụ cột vững chắc nữa cho ngành trí tuệ nhân tạo bên cạnh lý thuyết hoàn chỉnh về mạng nơ-ron. Sau năm 2012, nghiên cứu về trí tuệ nhân tạo (Artificial Intelligence - gọi tắt là AI) phát triển như vũ bão. Mỗi năm có hàng chục ngàn công trình khoa học liên quan được xuất bản. Các tập đoàn thượng thặng của Mỹ đổ xô đi săn lùng những tài năng danh giá nhất, lúc này ước chừng chỉ có vài trăm người trên toàn thế giới. Ba người chơi chính là hãng Facebook với LeCun, Google với Fei-Fei Li và sau này là Hinton, và Microsoft. 


Cho tới năm 2012, việc học và thực hành mạng nơ-ron nhân tạo vô cùng phức tạp. Nguyên nhân chính là do mạng nơ-ron được huấn luyện dựa vào thuật toán lan truyền ngược backpropagation vốn rất khó để lập trình. Cuối năm 2015, hãng Google giới thiệu thư viện TensorFlow dành cho các lập trình viên. Thư viện TensorFlow giúp tự động hóa hoàn toàn thuật toán lan truyền ngược. Một thời gian ngắn sau đó, hãng Facebook cũng giới thiệu thư viện PyTorch để cạnh tranh. Hai thư viện này đã phá bỏ những rào cản cuối cùng để tiếp cận Deep Learning, và biến mạng nơ-ron nhân tạo trở thành một môn học phổ thông.


Bên cạnh thuật toán và dữ liệu lớn, sự phát triển nhanh chóng của phần cứng máy tính là trụ cột thứ ba chống đỡ cho ngành trí tuệ nhân tạo. Vào năm 2015, chương trình chơi cờ vây AlphaGo của DeepMind (thuộc Google) được huấn luyện trong hơn 3 tháng thì vào cuối năm 2017, việc này chỉ mất 24 giờ. Trong giai đoạn 5 năm từ năm 2012 tới đầu năm 2018, tốc độ của máy tính dùng để huấn luyện mạng Deep Learning đã nhanh thêm 300,000 lần (xin nhắc lại: ba trăm ngàn lần). Đó là do các siêu máy tính được mở rộng bằng cách lắp ghép song song hàng ngàn bộ vi xử lý khác nhau. Chúng ta có thể hình dung là một siêu máy tính trông giống như vài ngàn chiếc máy tính để bàn kết nối với nhau trong một gian phòng.


Ngày nay, không khó để bắt gặp ứng dụng của trí tuệ nhân tạo trong đời sống hằng ngày. Youtube giới thiệu video mới, FaceID trên Iphone nhận dạng khuôn mặt, Google dịch, tất cả đều dựa trên mạng nơ-ron nhân tạo. Vì những đóng góp lớn lao này, giải thưởng Alan Turing 2018 đã được trao cho ba nhà khoa học Hinton, LeCun và Bengio. Đây được xem là giải Nobel của ngành khoa học máy tính, và ba nhà khoa học được ghi nhận là “cha đẻ” của Deep Learning. Trong buổi trao giải, LeCun đã phát biểu bằng tiếng Pháp giọng Paris của mình. Tất cả các nhà khoa học người Pháp trên thế giới đều cảm khái. Nhưng đáng tiếc là bên cạnh đó thì Schmidhuber, người tạo ra mạng LSTM, đã không hề được nhắc tới. Đã có rất nhiều tranh luận xung quanh vấn đề này và kéo dài trong nhiều năm.


(Cũng không quên nhắc tới một nhà khoa học-doanh nhân khác là Kai-Fu Lee, quen thuộc với độc giả Việt Nam với cái tên Lý Khai Phục. Ông cũng theo đuổi ý tưởng phát triển trí tuệ nhân tạo dựa vào dữ liệu lớn. Ông phân tích rằng Trung Quốc sẽ có lợi thế lớn với ngành này vì: 1) họ có nhiều dữ liệu hơn do đông dân hơn, và 2) họ không quan tâm tới chính sách bảo mật thông tin cá nhân. Những dự báo của ông trở nên đúng một phần với sự trỗi dậy của các ứng dụng như Alibaba và Tiktok.)