Trí thông minh nhân tạo của Microsoft đã thắng con người, giành điểm tuyệt đối khi chơi Pac Man
Mặc dù có cách chơi đơn giản, dễ nắm bắt, dễ điều khiển nhưng trong suốt gần 40 năm lịch sử của trò chơi Pac-Man, vẫn chưa có ai trong số nhân loại “phá đảo” được trò chơi này với điểm số tuyệt đối. Trớ trêu thay, điều đó mới đây lại được thực hiện không phải con người mà lại là máy tính, chính xác hơn là hệ thống trí thông minh nhân tạo (AI) phát triển bởi Maluuba - một nhóm công nghệ deep learning do Microsoft mua lại hồi đầu năm nay. Bằng cách sử kết hợp công nghệ máy học tăng cường với thuật toán chia để trị, AI của Maluuba đã đạt được điểm số tối đa 999.900 trong trò chơi Pac-Man, điều chưa hề có một game thủ nào trong lịch sử làm được.
Trên thực tế, các nhà nghiên cứu AI luôn có thiên hướng dùng các video game để test công nghệ machine leaning. Nguyên nhân vì các trò chơi này có thể mô phỏng lại sự hỗn loạn của thế giới thật trong một môi trường có kiểm soát tốt hơn so với những tựa game đánh cờ vốn đầy sự "tĩnh lặng”. Vào năm 2015, AI trí thông minh nhân tạo của DeepMind thuộc Google đã có thể học được cách chơi 49 game của Atari bằng công nghệ học tăng cường (reinforcement learning - RL), trong đó có thể đưa ra những phản hồi tích cực hoặc tiêu cực trong mỗi lần AI đưa ra quyết định nhằm giải quyết một vấn đề nào đó.
Dù đã chiến được khá nhiều tựa game hồi xưa những vẫn còn một số games có những đặc tính riêng về cách chơi mà AI chưa thể bá đạo được, Pac Man là một thí dụ điển hình cho điều đó. Nguyên nhân đơn giản vì game cố tình không đưa ra những thứ có thể dự đoán, thành ra con người chơi game này xưa giờ giỏi hơn máy tính nhiều. Tuy nhiên, nhiều game thủ dũng cảm đã có gắng phá đảo trò chơi này nhưng vẫn chỉ dừng lại ở kỷ lục (đối với con người) là xấp xỉ 266.330 điểm trên phiên bản Atari 2600. Còn số điểm tuyệt đối 999.900 chỉ có thể đạt được nếu chơi ăn gian.
Lần này, nhóm phát triển Maluuba chọn cách tiếp cận dùng AI để chiến thắng trò chơi bằng cách xé nhỏ các tác vụ ra thành những công việc nhỏ hơn và giao cho 150 nhân tố xử lý. Họ dạy AI dùng kiến trúc gọi là Phần thưởng lai (Hybrid Reward Architecture) - trong đó là sự kết hợp giữa học tập tăng cường với phương pháp chia để trị. Mỗi nhân tố xử lý sẽ được gán cho một phần tác vụ, thí dụ như tìm một hạt cụ thể, và cùng nhau đạt được mục tiêu lớn hơn. Sau đó, Maluuba thiết kế ra một nhân tố xử lý cao nhất với nhiệm vụ thu lấy đề nghị từ tất cả những nhân tố bên dưới nhằm đưa ra một quyết định cho từng bước đi trong Pac Man.
Kết quả thu được sẽ là tốt nhất khi mỗi nhân tố xử lý hành động một cách ích kỷ nhất và nhân tố quản lý sẽ tập trung vào việc chọn ra cái gì là tốt nhất cho cả nhóm, nghĩa là không chỉ quan tâm tới việc có bao nhiêu nhân tố muốn đi theo một hướng cụ thể nào đó mà quan trọng hơn là hướng đi đó sẽ có ảnh hưởng gì tới toàn cục. Thí dụ như dù chỉ có vài nhân tố xử lý muốn chạy tránh bọn ma nhưng đối khi quản lý lại coi trọng việc đó hơn là số đông nhân tố xử lý muốn ăn hạt. Harm Van Seijen, nhà nghiên cứu tại Maluuba cho biết: “Có sự tác động qua lại khá tuyệt vời ở đây. Đó là tác động giữa việc cách làm việc giữa mỗi cá nhân trong mối liên hệ với sự hợp tác dựa vào mức độ ưu tiên của tất cả các cá nhân, đồng thời, mỗi cá nhân cũng chỉ thực hiện 1 vấn đề duy nhất. Từ đó sẽ tạo nên lợi ích cho toàn cục.”
Nhóm phát triển Maluuba cho biết phiên bản AI Hybrid Reward Architecture sẽ có nhiều ứng dụng quan trọng, thí dụ như giúp dự đoán doanh số bán hàng của một công ty hoặc hỗ trợ hiệu quả cho quá trình xử lý ngôn ngữ tự nhiên.
Mặc dù có cách chơi đơn giản, dễ nắm bắt, dễ điều khiển nhưng trong suốt gần 40 năm lịch sử của trò chơi Pac-Man, vẫn chưa có ai trong số nhân loại “phá đảo” được trò chơi này với điểm số tuyệt đối. Trớ trêu thay, điều đó mới đây lại được thực hiện không phải con người mà lại là máy tính, chính xác hơn là hệ thống trí thông minh nhân tạo (AI) phát triển bởi Maluuba - một nhóm công nghệ deep learning do Microsoft mua lại hồi đầu năm nay. Bằng cách sử kết hợp công nghệ máy học tăng cường với thuật toán chia để trị, AI của Maluuba đã đạt được điểm số tối đa 999.900 trong trò chơi Pac-Man, điều chưa hề có một game thủ nào trong lịch sử làm được.
Trên thực tế, các nhà nghiên cứu AI luôn có thiên hướng dùng các video game để test công nghệ machine leaning. Nguyên nhân vì các trò chơi này có thể mô phỏng lại sự hỗn loạn của thế giới thật trong một môi trường có kiểm soát tốt hơn so với những tựa game đánh cờ vốn đầy sự "tĩnh lặng”. Vào năm 2015, AI trí thông minh nhân tạo của DeepMind thuộc Google đã có thể học được cách chơi 49 game của Atari bằng công nghệ học tăng cường (reinforcement learning - RL), trong đó có thể đưa ra những phản hồi tích cực hoặc tiêu cực trong mỗi lần AI đưa ra quyết định nhằm giải quyết một vấn đề nào đó.
Dù đã chiến được khá nhiều tựa game hồi xưa những vẫn còn một số games có những đặc tính riêng về cách chơi mà AI chưa thể bá đạo được, Pac Man là một thí dụ điển hình cho điều đó. Nguyên nhân đơn giản vì game cố tình không đưa ra những thứ có thể dự đoán, thành ra con người chơi game này xưa giờ giỏi hơn máy tính nhiều. Tuy nhiên, nhiều game thủ dũng cảm đã có gắng phá đảo trò chơi này nhưng vẫn chỉ dừng lại ở kỷ lục (đối với con người) là xấp xỉ 266.330 điểm trên phiên bản Atari 2600. Còn số điểm tuyệt đối 999.900 chỉ có thể đạt được nếu chơi ăn gian.
Lần này, nhóm phát triển Maluuba chọn cách tiếp cận dùng AI để chiến thắng trò chơi bằng cách xé nhỏ các tác vụ ra thành những công việc nhỏ hơn và giao cho 150 nhân tố xử lý. Họ dạy AI dùng kiến trúc gọi là Phần thưởng lai (Hybrid Reward Architecture) - trong đó là sự kết hợp giữa học tập tăng cường với phương pháp chia để trị. Mỗi nhân tố xử lý sẽ được gán cho một phần tác vụ, thí dụ như tìm một hạt cụ thể, và cùng nhau đạt được mục tiêu lớn hơn. Sau đó, Maluuba thiết kế ra một nhân tố xử lý cao nhất với nhiệm vụ thu lấy đề nghị từ tất cả những nhân tố bên dưới nhằm đưa ra một quyết định cho từng bước đi trong Pac Man.
Kết quả thu được sẽ là tốt nhất khi mỗi nhân tố xử lý hành động một cách ích kỷ nhất và nhân tố quản lý sẽ tập trung vào việc chọn ra cái gì là tốt nhất cho cả nhóm, nghĩa là không chỉ quan tâm tới việc có bao nhiêu nhân tố muốn đi theo một hướng cụ thể nào đó mà quan trọng hơn là hướng đi đó sẽ có ảnh hưởng gì tới toàn cục. Thí dụ như dù chỉ có vài nhân tố xử lý muốn chạy tránh bọn ma nhưng đối khi quản lý lại coi trọng việc đó hơn là số đông nhân tố xử lý muốn ăn hạt. Harm Van Seijen, nhà nghiên cứu tại Maluuba cho biết: “Có sự tác động qua lại khá tuyệt vời ở đây. Đó là tác động giữa việc cách làm việc giữa mỗi cá nhân trong mối liên hệ với sự hợp tác dựa vào mức độ ưu tiên của tất cả các cá nhân, đồng thời, mỗi cá nhân cũng chỉ thực hiện 1 vấn đề duy nhất. Từ đó sẽ tạo nên lợi ích cho toàn cục.”
Nhóm phát triển Maluuba cho biết phiên bản AI Hybrid Reward Architecture sẽ có nhiều ứng dụng quan trọng, thí dụ như giúp dự đoán doanh số bán hàng của một công ty hoặc hỗ trợ hiệu quả cho quá trình xử lý ngôn ngữ tự nhiên.
Nguồn: Tinhte