AlphaZero (Google), la nouvelle version du programme champion de Go, est devenu imbattable aux échecs et au shogi à une vitesse ahurissante. Ce qui prouve que ses méthodes d’apprentissage peuvent être généralisées.
Fin 2017, AlphaZero a balayé Stockfish, champion du monde des machines d'échecs, dans un match de 100 parties (28 gains, 72 nulles, 0 défaites).
Cette version « générique » de Deepmind ne se cantonnera pas à devenir un champion incontesté de jeux de société ou de plateau; à terme, Demis Hassabis (CEO de Deepmind) considère qu’AlphaZero pourra aussi mettre à profit ses étonnantes capacités de calcul pour aider à la découverte de nouveaux médicaments ou des matériaux aux propriétés particulières; avant d’en arriver à cette étape révolutionnaire, les mécanismes d’apprentissage d’AlphaZero devront être encore « repensés » pour être encore plus génériques et plus autonomes… - Photo © Jung Yeon-Je
On savait que la machine était plus forte que l’homme aux échecs depuis l’échec de Kasparov face à Deep Blue en 1997. La société DeepMind, qui appartient à Alphabet, vient pourtant de réaliser une performance encore jamais vue dans ce domaine, de surcroît déjà largement balisé par les chercheurs. Elle présente aujourd’hui la dernière version de son intelligence artificielle, AlphaZero, dans un article scientifique qui vient d’être soumis pour publication sur le site arXiv.
Le réseau neuronal a appris à jouer aux échecs, mais aussi au shogi - le jeu d’échecs japonais - et enfin au Go. Il s'est d'abord entraîné contre lui-même. Il a alors surpassé le niveau de la star des programmes informatiques d'échecs Stockfish en seulement quatre heures. A battu aussi le maître artificiel de shogi Elmo en moins de deux heures. Et, enfin, a devancé AlphaGo Lee - l’IA qui avait battu Lee Sedol - au bout de huit heures. Il a ensuite été confronté directement à ces logiciels champions lors d'un tournoi extrêmement rapide en 100 parties. Il n'a pas gagné à chaque fois, concédant quelques défaites et matchs nuls, mais en est ressorti largement victorieux. En tout, il lui aura fallu 24 heures pour devenir le meilleur à ces trois jeux distincts.
Debouts, Garry Kasparov et Demis Hassabis au London Chess Classic de Londres pour le lancement de la partie d'échecs entre le champion du monde norvégien Magnus Carlsen et l'Américain Fabiano Caruana - Photo © Maria Emelianova/Chess.com
Rappelons que la précédente mouture, AlphaGo Zero, avait prouvé au mois d’octobre dernier sa capacité à mettre KO toutes les intelligences artificielles championnes de Go en seulement 40 jours. AlphaZero repose sur un algorithme légèrement différent. « C’est une version plus générique », indique l’équipe de DeepMind dans son article. Elle n’a donc pas été conçue spécifiquement pour gagner au Go mais à n’importe quel jeu combinatoire. Avec toujours une configuration informatique très particulière puisque la société dispose d'une énorme capacité de calcul avec seulement 4 TPUs, des processeurs conçus pour les programmes d'apprentissage automatique. Comme pour AlphaGo Zero.
La méthode reste également la même. « Il s’agit de recourir à de l'apprentissage par renforcement non supervisé, c’est-à-dire à partir de rien », nous fait observer Tristan Cazeneuve, professeur à l'Université Paris Dauphine et expert en intelligence artificielle. Au lieu de se nourrir de millions de parties jouées par des humains pour en tirer des enseignements et imiter les coups les plus brillants, l’idée est de progresser « tabula rasa », c’est-à-dire uniquement en expérimentant et en jouant contre soi-même. Avec les règles des jeux pour seul postulat de départ.
Pour en savoir plus : Le site 01net.com