Skip to main content

Chương 3: Hình ảnh và ngôn ngữ

Chương 3: Hình ảnh và ngôn ngữ


Trong thời kì mùa xuân thứ hai của ngành trí tuệ nhân tạo vào những năm đầu 1980, các nhà khoa học về não bộ cũng có những khám phá quan trọng. Họ phát hiện thấy ở loài mèo, hình ảnh từ mắt đi vào não trải qua một vài bộ lọc, và dường như mỗi bộ lọc chỉ có tác dụng với một vài đặc trưng cơ bản nào đó. Một số nơ-ron nhất định sẽ được kích hoạt nếu bộ lọc phát hiện ra các đặc trưng này. Dần dần về sau, các nhà khoa học phát hiện thêm nhiều chi tiết hơn. Theo đó các bộ lọc trong lớp nơ-ron đầu tiên sẽ nhận dạng những đặc trưng cơ bản nhất, ví dụ như các đường thẳng và đường chéo cực ngắn, góc nhọn, góc vuông, v.v… Các bộ lọc ở lớp tiếp theo sử dụng đặc trưng cơ bản thu được ở lớp trước đó để tạo ra những đặc trưng phức tạp hơn: mắt, mũi, miệng. Lớp cuối cùng sẽ nhận dạng đặc trưng cao cấp nhất: khuôn mặt. Liệu ta có thể áp dụng điều này lên mạng nơ-ron nhân tạo?


Mùa đông thứ hai của ngành trí tuệ nhân tạo bắt đầu vào cuối năm 1986. LeCun lúc này đang là nghiên cứu sinh hậu tiến sĩ (postdoc) trong nhóm nghiên cứu của Hinton. Để cho độc giả dễ hình dung về danh xưng này, xin giới thiệu qua một chút về hệ thống giáo dục đại học và sau đại học trên thế giới.


Các trường đại học hiện đại vào đầu thế kỷ 20 đã dần chuyển sang mô hình đại học nghiên cứu. Trọng tâm của trường đại học sẽ xoay quanh các giáo sư, mỗi giáo sư tổ chức một nhóm nghiên cứu độc lập (lab). Các giáo sư có thể được cấp quy chế biên chế (tenure), theo đó thì trường đại học không có quyền chấm dứt hợp đồng với giáo sư, trừ khi vi phạm kỷ luật của trường. Biên chế sẽ bảo vệ rất nhiều giáo sư trong trường hợp bất đồng về hướng nghiên cứu với lãnh đạo trường, qua đó duy trì văn hóa nghiên cứu độc lập vốn là nền tảng thành công của ngành khoa học ngày nay.


Giáo sư trong trường có hai nhiệm vụ chính: giảng dạy và nghiên cứu. Mỗi giáo sư tự tổ chức một vài môn học theo sự thỏa thuận với trưởng khoa và nhà trường không can thiệp vào việc này. Bậc học cao (higher education) bắt đầu khi sinh viên bước vào trường. Sinh viên sẽ có 3-4 năm để hoàn thành bậc cử nhân. Sau đó họ có thể học tiếp 2 năm thạc sĩ. Những sinh viên tốt nghiệp thạc sĩ hạng ưu tú có thể chọn tiếp tục trở thành nghiên cứu sinh để tốt nghiệp tiến sĩ (Ph.D. - Doctorate of Philosophy). Rất nhiều trường cho phép kết hợp cả thạc sĩ và nghiên cứu sinh vào chung một chương trình.


Để trở thành nghiên cứu sinh thì sinh viên bắt buộc phải tìm một giáo sư. Với sự đồng ý của giáo sư thì sinh viên sẽ tham gia nhóm nghiên cứu, và bắt đầu học một nghề mới: nghề nghiên cứu. Các nghiên cứu sinh được trả lương bởi nhà trường nếu hỗ trợ giảng dạy cho giáo sư, hoặc bởi dự án giáo sư đang thực hiện. Các giáo sư phải thường xuyên nộp đơn xin nhà nước tài trợ cho các công trình nghiên cứu của mình và tạo ra kinh phí hoạt động cho nhóm nghiên cứu. Một sinh viên sẽ được nhận bằng tiến sĩ khi họ được giáo sư của mình công nhận là đã có khả năng nghiên cứu độc lập. Rất nhiều người sau khi tốt nghiệp sẽ tham gia các nhóm nghiên cứu khác để học hỏi thêm kinh nghiệm, và được gọi là nghiên cứu sinh hậu tiến sĩ. Sau đó, họ có thể ứng cử vào các vị trí giáo sư được đăng tuyển ở các trường. Nếu thành công thì họ sẽ trở thành giáo sư và bắt đầu nhóm nghiên cứu của mình.


Trong suốt những năm sau 1986, LeCun lần lượt tham gia vào nhiều nhóm nghiên cứu khác nhau. Thành tựu lớn nhất của ông trong thời kỳ này là tạo ra mạng tích chập Convolutional nets. Trước đó thì Hinton đã có thể dùng mạng nơ-ron nhân tạo để nhận dạng chữ số viết tay. Tuy nhiên, nhược điểm lớn nhất là mỗi điểm ảnh sẽ kết nối vào một nơ-ron trong lớp đầu tiên để tạo thành một cột, dẫn tới quan hệ hai chiều theo không gian của hình ảnh bị phá vỡ thành dạng một chiều. Hình ảnh sẽ mất đi tính tự nhiên, và kết quả là rất nhiều đặc trưng của hình ảnh bị phá vỡ. Mạng Convolutional nets của LeCun lấy cảm hứng từ thị giác mèo, theo đó sẽ có nhiều bộ lọc hình vuông. Mỗi bộ lọc sẽ lần lượt quét qua hình ảnh từ trái sang phải và từ trên xuống dưới. Mỗi bộ lọc chỉ phụ trách việc nhận dạng một đặc trưng cơ bản nào đó, kết quả là nó sẽ tạo ra một bản đồ phân bố đặc trưng đó trên hình ảnh được đưa. Bằng cách này, quan hệ không gian hai chiều của các đặc trưng trên hình ảnh sẽ được bảo toàn nguyên vẹn. LeCun cũng phát hiện ra với càng nhiều lớp thì mạng Convolutional nets sẽ càng nhận ra nhiều đặc trưng cấp cao và độ chính xác sẽ càng tốt hơn. Như vậy mạng Convolutional nets là sự mở rộng hoàn hảo của mạng nơ-ron nhân tạo trong lĩnh vực hình ảnh để nhận dạng vật thể. Và cuối cùng thì mạng Convolutional nets của LeCun cũng đã có thể nhận dạng chữ số viết tay với độ chính xác hơn 95%, vượt qua độ chính xác của con người. 


(Ngày nay, mạng Convolutional nets được xem là siêu vũ khí trong tập hợp các mạng nơ-ron nhân tạo vì khả năng xử lý hình ảnh của nó mà không một thuật toán nào từ trước tới nay có thể vượt qua được. Tháng 3/2021, LeCun đã cho công bố trên Twitter video ghi lại cảnh ông dùng Convolutional nets để nhận dạng chữ số viết tay đúng 30 năm trước.)


Những năm tiếp theo sau khi Convolutional nets tạo ra được sự đột phá với bài toán nhận dạng chữ số viết tay, LeCun loay hoay với bài toán mới là nhận dạng hàng ngàn vật thể khác nhau: chim chóc, cây cối, xe cộ, v.v.... Nhưng vì còn thiếu một nguyên liệu vô cùng quan trọng khác, thuật toán trí tuệ nhân tạo của ông sẽ phải mất thêm gần hai thập niên nữa để phát triển hoàn toàn. Trong quá trình đó, ông trở thành một giáo sư đại học và bắt đầu xây dựng nhóm nghiên cứu của mình. Giữa sự khốc liệt của mùa đông ngành trí tuệ nhân tạo, LeCun đã rất vất vả để giữ chân các sinh viên tiến sĩ của mình. Ông rơi nước mắt khi năn nỉ nhiều sinh viên, nhưng họ đành phải ra đi vì không thể nào tìm được việc làm sau khi tốt nghiệp. Nhưng có một người học trò đã ở lại với ông: Bengio.


Vào lúc này, ở phía bên kia Đại Tây Dương, một nhà nghiên cứu trẻ khác là Schmidhuber đang tập trung vào ngôn ngữ tự nhiên. Ông để ý là bản chất của ngôn ngữ thì khác hẳn so với hình ảnh: ngôn ngữ là một chuỗi các từ theo thứ tự thời gian. Như vậy để mạng nơ-ron nhân tạo xử lý được ngôn ngữ thì cần phải có bộ nhớ tạm. Trước đó, một nhánh của mạng nơ-ron đã ra đời dành riêng cho chuỗi thời gian, gọi là mạng nơ-ron hồi quy (recurrent neural network). Theo đó thì đầu ra của mạng nơ-ron sẽ được đưa vòng ngược trở lại đầu vào. Lấy ví dụ câu “tôi đi học”, từ “tôi” sẽ được đưa vào mạng nơ-ron và ta thu được tín hiệu tại ngõ ra. Tín hiệu này sẽ kết hợp với từ “đi” và lại được đưa vào mạng, cứ như vậy lần lượt cho đến hết câu. Mạng nơ-ron hồi quy này hoạt động rất tệ. Schmidhuber đã thêm vào một vài cải tiến cơ bản để tăng khả năng của mạng: cổng vào, cổng ra, cổng cập nhật, và cổng quên. Mạng nơ-ron sẽ phải học cách đưa luồng tín hiệu qua các cổng, tức là khả năng nhớ và quên ý nghĩa của từ trong câu. Schmidhuber gọi mạng nơ-ron mới này là LSTM (Long Short-Term Memory, dịch sát nghĩa: chuỗi dài của bộ nhớ ngắn hạn). 


Bengio, học trò của LeCun, nhanh chóng nhận ra tiềm năng của mạng nơ-ron mới. Ông đã tìm cách mã hóa từ ngữ thành dạng số hóa để phù hợp với mạng LSTM. Có nhiều phương pháp tiếp cận khác nhau, nhưng đều phải đảm bảo ngữ nghĩa của từ. Ví dụ nếu dùng thang giá trị từ 1 tới 10 để mã hóa một từ, thì hai từ “Luân Đôn” và “Anh” phải có giá trị gần giống nhau, tương tự là hai từ “Paris” và “Pháp”. Nhưng hai từ “Anh” và “Pháp” phải có giá trị khác nhau. Trong câu “tôi đi học” thì giá trị đại diện cho từ “tôi” sẽ gần với từ “đi” hơn so với từ “học”. Một từ có thể được đại diện với hàng trăm giá trị (gọi là vec-tơ giá trị), và như vậy khả năng vừa phân biệt ngữ nghĩa vừa thể hiện sự liên kết giữa các từ sẽ càng rõ ràng. Thêm vào nữa, số lượng câu học được càng lớn thì sẽ càng hoàn thiện các giá trị này hơn. Gần đây hãng Google đã mã hóa 30 triệu từ và cụm từ thông qua việc học toàn bộ sách vở đã từng được in ra của nhân loại. Nhờ đó chương trình Google dịch của họ càng ngày càng hoàn thiện.


Mạng LSTM hoạt động vô cùng hiệu quả với ngôn ngữ tự nhiên, và phát minh ra nó đã đưa tên tuổi của Schmidhuber và Bengio ngang tầm với Hinton và LeCun, những nhà khoa học vĩ đại nhất của ngành trí tuệ nhân tạo. Suy cho cùng, còn tín hiệu nào là quan trọng với chúng ta hơn là hình ảnh và âm thanh. Mạng LSTM cùng với mạng nơ-ron đa lớp của Hinton và mạng Convolutional nets của LeCun sau này được gọi chung là kỹ thuật học sâu (Deep Learning), sẽ mở ra một thời kì phát triển vàng son của ngành trí tuệ nhân tạo. Nhưng kỹ thuật học sâu Deep Learning, mặc dù đã hoàn thiện về mặt lý thuyết, vẫn còn thiếu một nguyên liệu quan trọng khác nữa để có thể thành công.


(Năm 2017, hơn 4 tỷ lần dịch ngôn ngữ đã diễn ra chỉ riêng trên nền tảng Facebook, tất cả đều sử dụng mạng LSTM).