Chương 8: Phân biệt 7 tỷ người
Rất nhiều người dùng Facebook chia sẻ chung một nỗi lo là có ai đó sẽ đưa hình của mình lên mạng một cách cố ý mà mình không thể nào biết được. Cách duy nhất để giải quyết vấn đề là phải có một thuật mạnh mẽ để nhận dạng được tất cả mọi người trên hành tinh.
Hãng Facebook đi đầu trong nỗ lực này với việc giới thiệu mạng tương phản (Contrastive networks). Mạng được huấn luyện bằng cách chọn ra 2 bức hình của cùng một người nhưng ở 2 góc chụp khác nhau, và 1 bức hình của người khác. Khi đưa 3 bức hình này vào mạng tương phản sẽ nhận được 3 giá trị khác nhau. Mạng tương phải tự học để đảm bảo rằng giá trị đại diện cho 2 bức hình của cùng một người sẽ giống nhau, và không giống bức hình của của người khác. Sau cùng, mạng tương phản sẽ đưa ra giá trị duy nhất cho bất kỳ một người nào dù góc chụp bị thay đổi. Kết quả là mạng tương phản, nếu được huấn luyện đủ tốt, có thể nhận dạng toàn bộ 7 tỷ người trên hành tinh. Hiện nay, nếu có ai đó đưa hình của chúng ta lên Facebook, thì ta sẽ được cảnh báo ngay lập tức. Năm 2017, hãng Apple giới thiệu chiếc Iphone X cũng có chức năng tương tự là mở khóa màn hình bằng cách nhận dạng khuôn mặt.
Lúc mới đầu, mạng tương phản được sử dụng chủ yếu cho việc nhận dạng. Nhưng dần về sau, nó được dùng rộng rãi trong một nhánh lớn hơn là các thuật toán tự học không cần hướng dẫn (unsupervised learning). Như chúng ta đã biết thì việc huấn luyện một số mạng nơ-ron nhân tạo cần dữ liệu có sẵn và được dán nhãn, hay nói cách khác là cần được hướng dẫn (supervised learning). Việc dán nhãn này đắt đỏ và tốn thời gian, đôi khi còn không thể nào làm được. Bên cạnh đó, một số mạng nơ-ron như là mạng GAN của Ian Goodfellow và mạng tương phản về bản chất không cần phải dán nhãn. Điều này giúp tiết kiệm nhiều công sức khi phát triển một ứng dụng với trí tuệ nhân tạo, vì dữ liệu không được dán nhãn tồn tại rất nhiều trong thực tế. Ví dụ chỉ cần quay một đoạn video là ta đã có vô vàn bức hình (không có nhãn). Nói tóm lại, nếu không cần phải dán nhãn dữ liệu thì công sức phải bỏ ra cho một mạng nơ-ron nhân tạo sẽ giảm xuống 10 lần, và nguồn dữ liệu để huấn luyện sẽ là vô tận.
Năm 2019, nhóm nghiên cứu của giáo sư Hinton giới thiệu một khuôn khổ (framework) hoàn chỉnh cho việc ứng dụng mạng tương phản vào các bài toán nhận dạng vật thể. Quy tắc cơ bản là nếu lấy một bức hình, giả sử là chữ viết tay của số 1, và xoay bức hình đó đi một ít thì ta sẽ có hai bức hình khác nhau nhưng đều cùng là chính số 1 này. Tiếp theo ta sẽ dùng mạng tương phản để phân biệt 2 bức hình này và bức hình của một chữ số khác. Tương tự như cách nhận dạng khuôn mặt ở trên, đến cuối cùng mỗi chữ số bất kì sẽ có một giá trị duy nhất. Những giá trị đại diện cho các số 1 sẽ rất giống nhau, đồng thời khác xa so với những giá trị đại diện cho các số 0. Việc tiếp theo là ta chỉ cần vẽ ra một đường “biên giới” giữa các nhóm chữ số, và trong mỗi nhóm chọn ra một vài bức hình để xem là chữ số gì, thì cả nhóm sẽ chính là chữ số đó. Việc huấn luyện hoàn tất.
Bằng cách này ta sẽ có một tập dữ liệu rất lớn và tha hồ huấn luyện mạng nơ-ron nhân tạo, ví dụ số chữ viết tay trên đời có thể nói là vô tận. Và càng nhiều dữ liệu thì mạng nơ-ron hoạt động càng hiệu quả. Chính vì vậy, giá trị của mạng tương phản và các thuật toán không cần hướng dẫn là rất lớn, đặc biệt là xét theo lượng dữ liệu có sẵn trên mạng Internet. Bên cạnh đó, sự phát triển của các thuật toán không cần dán nhãn còn có khả năng thay đổi tiềm lực về trí tuệ nhân tạo giữa hai thế lực lớn nhất là Mỹ và Trung Quốc. Trong một thời gian dài, nhiều công ty Trung Quốc dẫn trước nhờ vào lượng dữ liệu được dán nhãn lớn với dân số đông. Hiện nay, các công ty Mỹ có thể sử dụng mạng tương phản này để loại bỏ nhu cần dán nhãn dữ liệu, và thông qua đó xóa bỏ lợi thế duy nhất của các công ty Trung Quốc.