Skip to main content

Chương 0: Câu chuyện cờ vây

Chương 0: Câu chuyện cờ vây


“Bộ máy thông minh được tiếp sức bởi một binh đoàn các nhà khoa học tinh hoa, còn người đàn ông thì được tặng kèm một ly cafe đen giữa hiệp”.


Đó là vào tháng 3 năm 2016. Cả thế giới choáng váng trước sức mạnh vô song của cỗ máy trí tuệ nhân tạo AlphaGo đến từ DeepMind, con cưng của hãng Google. Trong một trận đấu cờ vây vô tiền khoáng hậu (Go có nghĩa là cờ vây trong tiếng Anh), kỳ thủ 9 đẳng Lee Sedol bị AlphaGo hạ 4 trên 5 ván. Nhưng AlphaGo không chỉ chiến thắng áp đảo mà nó còn có những nước cờ rất cao, rất đậm chất con người. Trong khi chỉ mới trước đó, đa số các nhà khoa học dự đoán là điều này (việc máy tính thắng con người trong cờ vây) chỉ có thể xảy ra sau ít nhất một thập kỷ nữa.


Nhưng rõ ràng, đây không phải là kết quả ngày một ngày hai. Một năm trước đó, AlphaGo đã hạ knock-out nhà vô địch cờ vây châu Âu trong một nghiên cứu khoa học công khai. Ngoại trừ một nhóm nhỏ các nhà khoa học, truyền thông dòng chính dòng phụ không hề để ý đến điều này. Suy cho cùng thì các nhà báo lúc đó làm sao có thể hiểu hết tính cấp thiết của một công nghệ tầm cỡ và được các đại tập đoàn cố tình đặt trong bóng tối?


Demis Hassabis là một chàng trai trẻ lớn lên tại Anh Quốc. Sau khi tốt nghiệp tại những trường đại học “đúng địa chỉ”, chàng trai bước vào nghề nghiên cứu với chuyên ngành thị giác máy tính. Nhưng suốt thời gian đó, Demis đã không bao giờ từ bỏ niềm đam mê mãnh liệt với môn cờ vây có từ thời niên thiếu. Chàng thanh niên luôn đặt ra những câu hỏi vì sao và tìm kiếm câu trả lời. Và câu hỏi quan trọng hơn hết: Vì sao khi chơi lâu thì con người càng ngày càng giỏi? 


Câu trả lời không phải lúc nào cũng rõ ràng. Trong suốt chiều dài lịch sử, mọi người đều cho rằng có người chơi cờ giỏi hơn người khác vì họ “thông minh” hơn. Bước sang thời hiện đại, những nghiên cứu khoa học công phu đã kết luận rằng sở dĩ người ta chơi cờ càng lâu thì càng giỏi vì họ khám phá ra và nhớ được nhiều “khuôn mẫu” (pattern) hơn. Càng nhiều càng tốt. Mà việc học khuôn mẫu này chính ra nguyên nhân ra đời của các thuật toán trí tuệ nhân tạo đời đầu.


Trong quãng thời gian từ năm 2006 đến năm 2012, giới khoa học máy tính đã bắt đầu lan truyền các tin đồn lâm ran về những điều kì diệu liên quan tới trí tuệ nhân tạo, được tạo ra bởi một vài nhà khoa học trong bóng tối. Các tập đoàn thượng thặng của Mỹ cũng bắt đầu rục rịch chuyển đổi để chuẩn bị cho cơn sóng thần sắp tới, và không tiếc gia tài để săn đón chuyên gia. Vì tốt nghiệp “đúng địa chỉ”, Demis cũng là một trong số người “trong bóng tối” và hiểu rất rõ về những gì đang xảy ra. Chàng trai Demis, giờ đã là nhà nghiên cứu độc lập, âm thầm chuẩn bị.


Cơn sóng thần ập đến vào năm 2012 khi nhóm nghiên cứu của giáo sư Hinton (Canada) chiến thắng tất cả các đội thi khác trong một cuộc thi tầm cỡ về nhận dạng hình ảnh. Công nghệ Deep Learning (học sâu) cho xử lý ảnh, Convolutional neural network, đã trưởng thành gần như đủ để thay thế con người trong nhiều công việc. Nhận dạng chữ viết tay, biển số xe, phân loại sản phẩm bằng camera, v.v…, trở thành ngành thời thượng. Và các đại tập đoàn đổ xô vào Deep Learning. Nhưng Deep Learning vẫn còn là một cái gì đó xa lạ với công chúng nói chung.


Lúc này, Demis đặt câu hỏi: liệu máy tính có thể chỉ nhìn vào bàn cờ vây và học cách chơi cờ? Suy nghĩ và bắt tay vào làm ngay, ông chụp hình bàn cờ vây và đưa vào Deep Learning để huấn luyện. Kết quả? Thất bại. Đó là vì ông đã không để ý rằng hình ảnh của bàn cờ chỉ là một dữ kiện, con người ta để chơi cờ thì cần làm 2 việc nữa: 1) Với mỗi bước đi, tính toán tất cả khả năng xảy ra và đánh giá, dự đoán nước đi tiếp theo của đối thủ; và 2) Cần phải học đi học lại nhiều lần mới giỏi được.


Nhưng cũng không cần phải đợi quá lâu trước khi Demis nhận ra những điều này. Ông đã thêm vào mô hình Deep Learning của Hinton hai kỹ thuật: Reinforcement Learning (học tăng cường), và Monte Carlo (một thuật toán tìm kiếm cổ điển). Kỹ thuật Reinforcement Learning này đã được giới thiệu từ năm 1998 nhưng không mấy thành công. Và Demis cũng nhận ra vấn đề là do số nước đi có thể xảy ra ở môn cờ vây thì quá nhiều, nhiều hơn cả số nguyên tử có trong vũ trụ. Cờ vây chính là trò chơi phức tạp nhất con người từng tạo ra. Vì vậy mô hình mới của ông sẽ hoạt động như thế này: sau mỗi nước đi, thuật toán Monte Carlo sẽ đưa ra các nước đi tiếp theo có thể có của đối thủ, và mỗi nước đi này lại có những nước đi khác có thể có trong tương lai. Kết quả là tạo ra một cái cây phân nhánh theo các nước đi, nhưng không đi tới tận cùng (vì quá nhiều) mà chỉ phân nhánh 6-7 lần (tương ứng với 6-7 nước đi trong tương lai). Thuật toán Deep Learning, dựa vào hình chụp bàn cờ vây lúc đó, sẽ đánh giá các nhánh này theo một thang điểm. Kết quả là nhánh nào có điểm cao nhất thì máy tính sẽ đi nước cờ đó. Và kỹ thuật Reinforcement Learning giúp cho máy tính học đi học lại. 


Những kỹ thuật cũ này đã hoạt động đúng theo mục tiêu nó được tạo ra, và kết quả là tạo ra một sự đột phá vượt ngoài mong đợi. Năm 2014, công ty nghiên cứu DeepMind của Demis xuất bản một bài báo khoa học giới thiệu công nghệ Deep Reinforcement Learning (lúc này chưa giới thiệu kỹ thuật Monte Carlo). Cùng năm, Google mua lại DeepMind với giá 400 triệu đô-la, chỉ vì một bài báo khoa học này. Mạnh vì gạo bạo vì tiền, DeepMind tăng cường hệ thống để chuẩn bị cho thời khắc bước ra khỏi bóng tối. Hệ thống AlphaGo được xây dựng dành riêng cho môn cờ vây. Nó đã được huấn luyện với hơn 30 triệu ván cờ vây từ cổ chí kim, một kỷ lục. Năm 2015, AlphaGo đánh bại tất cả những tay chơi cờ chủ chốt ở châu Âu, kể cả việc hạ knock-out nhà vô địch mấy ván liền không gỡ.


Nhưng những tay chơi cờ vây ở các nước châu Á ở một đẳng cấp khác hẳn, mà không có kỳ thủ châu Âu nào có thể so sánh được. Để thu hút sự chú ý của công chúng vào Google, họ phải làm điều gì đó khác biệt. Đầu năm 2016, AlphaGo thách đấu Lee Sedol, một kỳ thủ “đai đen” 9 đẳng của Hàn Quốc. Tháng 3 cùng năm, AlphaGo đánh bại Lee Sedol với tỉ số 4-1. Một tuần sau, tổng thống Hàn Quốc ký sắc lệnh rót 900 triệu đô-la vào nghiên cứu trí tuệ nhân tạo. Niềm tin vào sự thông minh “thần thánh” của con người bị rung lắc dữ dội.


AlphaGo cần một bước nữa để hoàn thành chặng đường. Tháng 5 năm 2017, AlphaGo thách đấu và chiến thắng 3-0 trước Ke Jie, nhà vô địch toàn thế giới môn cờ vây. Truyền thông Trung Quốc được lệnh không chiếu tiếp trận đấu ngay giữa giờ, để tránh câu chuyện “công nghệ Mỹ thắng người Trung Quốc”. AlphaGo bước vào lịch sử với tư cách là nhà vô địch cờ vây mọi thời đại.


Nhưng sớm thôi, AlphaGo sẽ phải nhường lại vị trí vô địch này cho một cỗ máy mới cũng đến từ DeepMind. AlphaGo Zero, ra đời vào năm 2017, được huấn luyện bằng cách cho 2 hệ thống Deep Reinforcement Learning đánh cờ vây với nhau, mặc dù cả hai đều không biết gì về cờ vây trước đó. Kết quả là hai hệ thống phải liên tục học để trở nên tốt hơn. AlphaGo Zero, sau khi được huấn luyện xong, đã đánh bại hệ thống AlphaGo cũ trong tất cả các ván cờ có thể có. Tháng 12 năm 2017, DeepMind giới thiệu bản cập nhật gọi là AlphaZero. Được huấn luyện chỉ trong 24 giờ (thay vì 3 tháng như AlphaGo), hệ thống mới này đã đạt tới cấp độ “siêu nhiên” ở hàng chục trò chơi khác nhau.


Hồi kết của câu chuyện, hóa ra đời không như là mơ. Trái ngược với sự tung hô và lo sợ của công chúng, AlphaGo là một sự thất bại về mặt kinh doanh. Đã không có (hoặc rất ít) ứng dụng được tạo ra từ công nghệ tạo nên AlphaGo. Công nghệ quá phức tạp và việc huấn luyện cỗ máy vô cùng đắt đỏ. Các bài toán trong cuộc sống thì phức tạp hơn hẳn những trò chơi cổ xưa với quy tắc rõ ràng. Ví dụ: bài toán kinh điển trong công nghiệp là dùng cánh tay robot để gắp vật thể (bắt chước một đứa trẻ 3 tuổi); chưa có một công ty hay nhóm nghiên cứu nào tiệm cận được điểm khả thi. Các nhà khoa học bắt đầu rời xa Reinforcement Learning để theo đuổi những hướng đi khác trong lĩnh vực Deep Learning. Cuối năm 2020, DeepMind tung ra AlphaFold để dự đoán cấu trúc phân tử protein, tạo ra một sự thay đổi căn bản trong việc nghiên cứu dược phẩm. Nhưng lúc này niềm tin của các tập đoàn đã cạn dần, và giới khoa học cũng không cuồng nhiệt như xưa. Đã không có cuộc phỏng vấn trên truyền hình nào về AlphaFold và DeepMind như đã từng có với AlphaGo và môn cờ vây.



Liên hệ
-----------------------------------------