Chương 6: Người tạo giấc mơ
“Chúng ta không thể hiểu rõ điều gì đó nếu không thể tạo ra nó”.
Chàng trai trẻ ngồi uống bia với bạn trong một quán rượu chật hẹp ở Canada. Cả hai đang cá cược với nhau về vấn đề cân bằng khi có hai người tham gia vào lý thuyết trò chơi, ngành toán học thời thượng khi đó. Là một lý thuyết chủ yếu áp dụng vào kinh thế học, nó xảy ra trong trường hợp hai người chơi đều cố gắng giành lợi thế tối đa nhưng không để trò chơi kết thúc, ví dụ như các cuộc đàm phán hoặc đấu giá. Tối hôm đó, chàng trai không đồng ý với người bạn của mình. Anh trở về phòng trò và thử viết một vài dòng lệnh vào máy tính, mà không biết rằng mình đã vô tình tạo ra một nhánh mới hoàn toàn trong ngành trí tuệ nhân tạo.
Đó là vào thời điểm năm 2014. Hai năm sau khi đội của Hinton tham gia cuộc thi ImageNet, mạng nơ-ron nhân tạo trở thành tiêu chuẩn vàng của các thuật toán tự học Machine Learning. Các nhà khoa học nhận ra là với nhiều lớp nơ-ron thì mô hình học sâu Deep Learning sẽ có độ chính xác cao hơn. Nhưng có một vấn đề hóc búa khác: với sự phức tạp tăng dần của mạng nơ-ron, chúng ta ngày càng không hiểu nó đã hoạt động như thế nào. Ta có thể hiểu rõ cách từng nơ-ron trong mạng cải tiến theo thời gian, nhưng như vậy vẫn chưa đủ vì các nơ-ron lại bị ảnh hưởng bởi những nơ-ron khác trong cùng mạng; và tất nhiên các nơ-ron phải liên kết với nhau để nhận dạng khuôn mẫu nhất định. Vì sao các nơ-ron lại có thể liên kết với nhau? Vì sao các bộ lọc nhận ra đặc trưng này mà không phải là đặc trưng khác của vật thể? Những câu hỏi đó đã không dễ trả lời trong thời kỳ LeCun tạo ra mạng tích chập Convolutional nets với chỉ 1 lớp. Giờ đây, một mạng nơ-ron thông thường có gần 100 lớp. Mà nếu không thể giải thích được vì sao mạng nơ-ron hoạt động tốt thì chúng ta sẽ không thể khắc phục hậu quả nếu nó dự đoán sai lầm.
Những nỗ lực giải thích hoạt động của mạng nơ-ron nhân tạo xoay quanh một quy trình gọi là kỹ thuật đảo ngược (reverse engineer). Quy trình này rất phổ biến trong thực tế. Ví dụ để hiểu hoạt động của một chiếc xe máy thì ta thường tháo tất cả bộ phận ra, sau đó tìm cách lắp ráp lại như cũ. Một công ty muốn bắt chước đối thủ thì sẽ mua sản phẩm của đối thủ về và tìm cách chế tạo mẫu tương tự. Áp dụng vào lĩnh vực trí tuệ nhân tạo, để biết làm sao mạng nơ-ron phân biệt hình con chó và con mèo, hay hơn hết là chúng ta hãy lấy một mạng nơ-ron mới, và nó sẽ phải tạo ra được bức hình chó hoặc mèo tùy theo yêu cầu. Như vậy ta chỉ cần thay đổi các yêu cầu một cách ngẫu nhiên và quan sát sự đáp ứng của mạng nơ-ron này để hiểu rõ nó.
Chàng trai trẻ kể trên là Ian GoodFellow, học trò của giáo sư Bengio. Trong buổi tối hôm đó, anh đề xuất một mô hình mạng nơ-ron mới hoàn toàn. Cụ thể là sẽ có hai mạng nơ-ron: mạng sáng tạo và mạng phân biệt. Mạng sáng tạo, dựa vào yêu cầu của chúng ta, sẽ tạo ra một bức hình của chó hoặc mèo. Bức hình “nhân tạo” sẽ được trộn lẫn với tập hợp các bức hình chó và mèo thật. Mạng phân biệt có trách nhiệm học cách phát hiện bức hình giả này. Còn mạng sáng tạo thì ngược lại, học cách làm sao đánh lừa mạng phân biệt. Hai mạng nơ-ron vừa là đối thủ vừa là người chơi trong cùng một hệ thống. Một mặt, mạng sáng tạo sẽ ngày càng tạo ra những bức hình nhân tạo một cách tinh vi, càng giống hình thật càng tốt. Mặt khác, mạng phân biệt phải luôn cố gắng để loại “hàng giả”, cho dù có tinh vi tới đâu. Cứ như vậy, dần dần mạng sáng tạo sẽ tạo ra một bức hình đủ tốt đến nỗi không khác gì “hàng thật”. Khi huấn luyện mô hình Deep Learning mới này, điều quan trọng nhất là cả hai mạng phải cùng được huấn luyện song hành, nếu không một mạng sẽ mạnh lên vượt trội và hệ thống sẽ sụp đổ.
Chàng trai GoodFellow thành công ngay lần chạy thử đầu tiên. Những bức hình nhân tạo lần lượt được tạo ra trong sự ngỡ ngàng (mặc dù lúc đó vẫn còn hơi mờ). Trong cùng năm, anh giới thiệu ra công chúng mô hình mới này với tên gọi GAN (Generative Adversarial Nets: mạng sáng tạo-đối đầu). Giáo sư LeCun gọi đây là phát minh về trí tuệ nhân tạo quan trọng nhất trong vòng 20 năm. Vì đặc tính kỳ diệu của nó trong việc tạo ra bức hình nhân tạo một cách hoàn hảo, mạng GAN được sử dụng rất nhiều trong việc tạo ra khuôn mặt người mà không giống bất kỳ ai trên trái đất. Các dự báo cho rằng trong tương lai, đa số hình ảnh tìm thấy trên mạng Internet có thể sẽ là hình giả được tạo ra bởi mạng GAN này.
Nhiều ứng dụng đã đưa mạng GAN tiến xa hơn. Một số ứng dụng vui như là lấy hình chụp khuôn mặt một người và dự đoán người đó lão hóa ra sao khi lớn tuổi. Ở thái cực ngược lại, điệp viên các nước bắt đầu sử dụng những khuôn mặt đẹp như người mẫu (nhưng là hình nhân tạo) để xâm nhập các tổ chức. Ứng dụng thực khác là tạo ra hình ảnh đường phố giả để huấn luyện xe tự lái, vì việc thu thập dữ liệu thực tế thì đắt đỏ và tốn thời gian. Xa hơn nữa, mạng GAN còn có thể tạo ra được những tác phẩm nghệ thuật bằng việc kết hợp nhiều trường phái hội họa khác nhau. Ví dụ mạng GAN được dùng để tạo ra bức tranh kết hợp phong cách của Van Gogh và Picasso như chúng ta hay bắt gặp trong các giấc mơ. Vì những điều này, Ian GoodFellow thường được truyền thông nhắc tới như là người đã “giúp trí tuệ nhân tạo biết mơ”.
(Năm 2016, Ian GoodFellow xuất bản cuốn sách “Deep Learning”, trong đó dành riêng một chương để giới thiệu về mạng GAN. Cuốn sách trở thành giáo trình dạy kỹ thuật học sâu Deep Learning phổ biến nhất ở các trường đại học).