Sans aucune règle ni information préalable, un simple ordinateur a appris à jouer à 49 jeux classiques d’Atari en deux semaines seulement – et il a appris à les jouer sacrément bien. Mais le plus impressionnant, c’est que l’algorithme construit par Google qu’il utilise n’a même pas été conçu spécifiquement pour jouer à des jeux, juste pour apprendre de sa propre expérience.
Qu’est-ce que cela signifie, à part le fait que les ordinateurs peuvent maintenant nous battre à Space Invaders et à résoudre des Rubik’s Cubes ? Il s’avère que nous avons maintenant les premières étapes d’un algorithme d’apprentissage général qui pourrait aider les robots et les ordinateurs à devenir des experts dans n’importe quelle tâche que nous leur confions, et c’est plutôt énorme. Breakout, ainsi que les échecs, le poker Texas hold’em et les jeux de société
“C’est la première fois que quelqu’un construit un seul système d’apprentissage général capable d’apprendre directement de l’expérience pour maîtriser un large éventail de tâches difficiles”, a déclaré Demis Hassabis, l’un des principaux chercheurs, à William Herkewitz de Popular Mechanics. Hassabis était l’un des cofondateurs de DeepMind Technologies, la société qui a commencé à fabriquer l’algorithme et qui a été rachetée par Google l’année dernière pour un montant estimé à 400 millions de dollars.
Publiant aujourd’hui dans Nature, l’équipe explique comment l’algorithme d’apprentissage profond, appelé Deep Q-Network, ou DQN, a pu maîtriser des jeux tels que Boxing, Space Invaders et Stargunner sans aucune information de base. Il s’agit notamment de détails tels que les “méchants” dont il faut se méfier et la façon d’utiliser les commandes. Il n’avait accès qu’au score et aux pixels de l’écran pour savoir comment devenir un joueur expert.
En jouant les jeux encore et encore, et en apprenant de ses erreurs, l’algorithme apprend d’abord à jouer correctement, puis, en quinze jours, à gagner.
Bien sûr, ce n’est pas le premier programme qui apprend à un ordinateur à devenir un joueur expert. Il y a un peu plus de 20 ans, un programme connu sous le nom de TD-Gammon a maîtrisé le Backgammon. Mais la différence est que TD-Gammon n’a jamais réussi à faire aussi bien avec des jeux similaires, comme les échecs et les dames, comme l’explique Toby Walsh, un informaticien de National ICT Australia et de l’UNSW qui n’a pas participé à la recherche, sur The Conversation.
L’algorithme DQN, en revanche, pourrait maîtriser toute une série de jeux différents, grâce à deux avancées technologiques.
Tout d’abord, DQN s’appuie sur une méthode d’apprentissage par renforcement positif appelée Q-learning. En gros, cela signifie que l’algorithme fera tout ce qu’il peut – appuyer sur chaque bouton et bouger le joystick comme un fou – afin de se rapprocher de “Q”, une valeur que les informaticiens ont définie comme la récompense ultime. Dans le cas de cette expérience, cette récompense était le score du jeu, et plus il était élevé, mieux c’était.
Comme l’explique Herkewitz pour Popular Mechanics, ce n’est pas aussi facile qu’il y paraît :
“Pour comprendre comment maximiser votre score dans un jeu comme Space Invaders, vous devez reconnaître un millier de faits différents : la façon dont les extraterrestres pixélisés se déplacent, le fait que leur tirer dessus vous rapporte des points, le moment où il faut tirer, l’effet du tir, le fait que vous contrôlez le char, et bien d’autres hypothèses, dont la plupart sont comprises intuitivement par un joueur humain. Et puis, si l’algorithme change pour un jeu de course, un side-scroller ou Pac-Man, il doit apprendre un ensemble de faits entièrement nouveau.”
Mais c’est là qu’intervient la deuxième amélioration – DQN est construit sur un réseau qui a été inspiré par la capacité du cerveau humain à séparer le bruit de fond des informations importantes. Cela signifie que DQN est capable d’absorber des informations précieuses en fonction de son expérience antérieure et d’en tirer des enseignements.
Bien qu’il s’agisse d’une percée impressionnante, il est important de noter qu’il ne s’agit pas encore d’un véritable algorithme d’apprentissage général. Les programmeurs devaient encore définir une valeur Q pour le programme afin qu’il apprenne – un système réellement intelligent serait capable d’établir ses propres objectifs afin de maîtriser une nouvelle compétence.
Et DQN ne comprend jamais vraiment les jeux auxquels il joue, comme le ferait un humain, il apprend juste ce qu’il faut faire pour obtenir un meilleur score. C’est pourquoi DQN n’a pas pu maîtriser certains jeux, comme Montezuma’s Revenge (vous pouvez en savoir plus à ce sujet sur le Washington Post).
À l’avenir, l’équipe espère développer l’algorithme afin qu’il puisse aider à passer au crible de grandes quantités de données scientifiques et parvenir à ses propres conclusions. “Le système que nous avons développé n’est qu’une démonstration de la puissance des algorithmes généraux”, a déclaré l’un des développeurs, Koray Kavukcuoglu, à Herkewitz. “L’idée est que les futures versions du système puissent se généraliser à tout problème de prise de décision séquentielle.”
Découvrez comment DQN apprend dans la vidéo de Nature ci-dessous, et allez tester vos propres compétences Atari ici.
Sources : Popular Mechanics, The Conversation
Lire la suite :Ce programme informatique a “résolu” le poker Texas hold’em