Chương 7: Tấn công và phòng thủ
Không lâu sau sự trỗi dậy của mang nơ-ron nhân tạo, nỗi lo lắng về một hậu quả nghiêm trọng có thể xảy ra nếu mạng nơ-ron bị tấn công đã bắt đầu xuất hiện. Năm 2014, Anh Nguyen, nhà khoa học gốc Việt, và các đồng nghiệp của ông xuất bản một nghiên cứu khoa học giới thiệu phương pháp đánh lừa mạng nơ-ron để dẫn tới dự đoán sai. Trong vòng vài năm, nhiều cách thức có thể dùng để tấn công mạng nơ-ron nhân tạo lần lượt được phát hiện ra.
Về lý thuyết thì cách tấn công mạng nơ-ron nhân tạo không phức tạp như chúng ta nghĩ. Vì mạng nơ-ron lấy cảm hứng từ bộ não, cách tấn công nó cũng không khác nhiều so với cách tấn công “tư tưởng” một người. Có hai giai đoạn có thể xảy ra. Một là khi đang huấn luyện mạng nơ-ron. Giống như một đứa trẻ lớn lên sẽ thành “người xấu” nếu lúc nhỏ sống trong môi trường độc hại, mạng nơ-ron có thể trở nên vô dụng nếu được huấn luyện với dữ liệu chất lượng thấp (hoặc bị dán nhãn sai). Một ví dụ phổ biến là khi chúng ta khi truy cập vào các trang web, thì sẽ được yêu cầu xác nhận không phải là robot bằng cách phải chọn một vài hình theo chủ đề: xe đạp, thuyền, v.v.... Đây là cách các công ty “nhờ” người dùng dán nhãn hình ảnh để sau này huấn luyện mạng nơ-ron. Theo đó, thì nhiều bức hình có thể bị dán nhãn sai và làm cho chất lượng mạng nơ-ron được huấn luyện đi xuống.
Cách tấn công thứ nhất này mặc dù không thể phòng thủ nhưng lại có thể kiểm soát được, vì lỗi dự đoán sai sẽ trải đều trên tất mọi các loại vật thể. Cách tấn công thứ hai là nhắm vào bản chất toán học của các thuật toán tự học Machine Learning, mà mạng nơ-ron nhân tạo là một nhánh nhỏ. Về mặt lý thuyết toán, các thuật toán tự học sẽ phải tìm ra “biên giới” phân biệt các nhóm vật thể trong quá trình huấn luyện. Các biên giới này được tạo ra nhờ vào rất nhiều giá trị đặc trưng. Khi phải dự đoán là vật thể nào trong một bức hình mới, thuật toán sẽ tính toán xem nó nằm trong “biên giới” của nhóm vật thể nào và đưa ra dự đoán. Nhà khoa học Anh Nguyen đã chỉ ra rằng những biên giới này rất dễ để tìm ra, và chỉ cần thay đổi một giá trị đặc trưng nào đó là đã có thể làm cho thuật toán dự đoán thành kết quả khác. Để cảnh báo về điều này, nhiều nhà khoa học đã thử huấn luyện một chiếc xe tự lái chạy trên đường. Sau đó, bằng cách thêm một chấm nhỏ vào biển báo, các nhà khoa học đã có thể làm cho xe tự lái nhận dạng nhầm biển “Stop” (dừng lại) thành biển báo cho phép tốc độ cao và chiếc xe tăng tốc.
Khi mạng nơ-ron nhân tạo được sử dụng ngày càng phổ biến trong thực tế, việc phòng thủ chống lại cách tấn công thứ hai trở nên thiết yếu. Phương pháp phòng thủ tốt nhất là tăng số lượng dữ liệu dùng để huấn luyện mạng nơ-ron, như vậy có thể làm cho đường biên giới giữa các nhóm vật thể trở nên “cứng cáp” hơn. Những ứng dụng hiện nay của trí tuệ nhân tạo đều được huấn luyện bằng hàng tỷ bức hình, do đó nỗi lo về việc tấn công vào mô hình tự học đã phần nào giảm bớt. Mặc dù vậy, lý thuyết về thuật toán tự học Machine Learning đã chỉ ra rằng sẽ không thể nào loại bỏ được hoàn toàn nguy cơ này trong tương lai.