Une IA s’entraine à jouer à Minecraft en regardant des vidéos YouTube

Le moins que l’on puisse dire, c’est que le défi est insolite. Une équipe de recherche a entrainé une IA à jouer au célèbre bac-à-sable en lui faisant visionner des dizaines de milliers d’heures de jeu sur YouTube…

Les vidéos de gameplay de Minecraft sont très populaires sur YouTube. L’année dernière, celles-ci ont d’ailleurs passé le cap des 1.000 milliards de vues sur la plateforme de streaming. En utilisant ce contenu, OpenAI, l’organisme de recherche en intelligence artificielle fondé par Elon Musk, a entraîné une IA à jouer à Minecraft presque aussi bien que les humains.

Minecraft – Crédit : Microsoft

Afin d’atteindre des performances optimales, l’IA aura donc visionné plus de 70.000 heures de jeu. Les chercheurs ont utilisé une technique appelée “Video PreTraining (VPT)” pour entraîner un réseau neuronal à jouer à Minecraft. L’équipe a ainsi rassemblé 2 000 heures d’échantillons de données provenant d’humains jouant au jeu. Ceux-ci contiennent non seulement des vidéos brutes, mais également toutes les informations nécessaires concernant les touches utilisées.

Minecraft : l’IA a pu fabriquer une pioche en diamant

Ensuite, les chercheurs ont formé un “modèle de dynamique inverse” (IDM) pour prédire l’action future à chaque étape des vidéos. Enfin, l’équipe d’OpenAI a montré au modèle IDM “entraîné” 70 000 heures de vidéos YouTube de Minecraft.  Le modèle a ainsi pu copier les comportements des joueurs concernant les crafts simples, comme couper du bois ou assembler des objets.

L’IA a également pu effectuer d’autres activités complexes, comme nager, chasser et manger. Celle-ci a d’ailleurs été capable d’effectuer le célèbre “pillar jumping”, qui consiste à se maintenir en l’air en sautant de manière répétée tout en plaçant des blocs sous ses pieds. On ne sait toutefois pas si l’IA est capable d’interagir avec les nouveaux éléments ajoutés lors de la mise à jour 1.19, mise en ligne plus tôt ce mois-ci.

L’apprentissage de l’IA est cumulatif. En effet, plus celle-ci visionne de vidéos, plus elle se montre performante. Les chercheurs ont même décidé de “récompenser” l’IA lorsqu’elle relevait des défis particulièrement difficiles. Ce système a été utilisé de manière si efficace que le modèle a pu fabriquer avec succès une pioche en diamant, une tâche qui nécessite une longue séquence d’opérations.

Source : ign