Voici ce qu'a appris une équipe de robots à travers 500 millions de parties de cache-cache

Les robots étaient propulsés par OpenAI Five, un système informatique composé de cinq réseaux de neurones artificiels indépendants qui prennent des décisions de façon autonome et apprennent de leurs erreurs afin de développer des nouveaux comportements.
Photo : OpenAI
Prenez note que cet article publié en 2019 pourrait contenir des informations qui ne sont plus à jour.
On peut apprendre beaucoup sur le processus décisionnel de robots propulsés par l’intelligence artificielle en les observant lorsqu’ils sont laissés à eux-mêmes. C’est ce qu’a fait l’équipe de recherche du laboratoire d’intelligence artificielle OpenAI avec sa dernière expérience, qui consistait à simuler des centaines de millions de parties de cache-cache entre deux équipes de robots.
Les règles du jeu étaient simples. Une équipe d’agents virtuels devait se cacher tandis que l’autre devait les trouver. Le nombre de membres de chaque équipe variait aléatoirement entre un et trois.
Les avatars étaient placés dans une arène fermée où se trouvaient des boîtes et des rampes manipulables. Ils avaient aussi la capacité de bloquer l’accès à ces objets à l’autre équipe afin qu’elle ne puisse pas les déplacer.
Les robots étaient propulsés par OpenAI Five, un système informatique composé de cinq réseaux de neurones artificiels indépendants qui prennent des décisions de façon autonome et apprennent de leurs erreurs afin de développer de nouveaux comportements.
OpenAI Five fonctionne avec l’apprentissage par renforcement, qui récompense l'algorithme lorsqu’il adopte les comportements recherchés. C’est d’ailleurs une technique qui sert à entraîner des animaux.
Pour les 25 millions de premières parties, les avatars qui devaient se cacher (l’équipe bleue) se sont simplement déplacés dans l’espace tandis que les avatars qui devaient les trouver (l’équipe rouge) les pourchassaient.
L’équipe bleue a ensuite compris qu’elle pouvait se servir des objets dans son environnement pour créer des forts impénétrables grâce aux objets qu’elle avait à sa disposition.

Les robots construisent un fort.
Photo : OpenAI
75 millions de parties plus tard, l’équipe rouge a développé une contre-stratégie. Elle s’est mise à utiliser des rampes pour sauter par-dessus les obstacles.

L'équipe rouge se sert d'une rampe.
Photo : OpenAI
L’équipe bleue a riposté en cachant les rampes dans son fort avant de bloquer l’entrée avec les blocs.

L'équipe bleue cache des rampes.
Photo : OpenAI
Quand une équipe apprend une nouvelle stratégie, elle crée une pression chez ses adversaires, qui doivent s’adapter. On peut faire une intéressante analogie avec l’évolution des êtres humains sur la terre, lors de laquelle il y avait une constante compétition entre les organismes
, a expliqué l’un des membres de l’équipe de recherche d’OpenAI, Bowen Baker, en entrevue avec New Scientist.
Se servir de bogues pour gagner
Bowen Baker a été surpris de voir à quel point l’intelligence artificielle pouvait s’adapter, peu importe les embûches.
Quand l'environnement de la simulation s’est élargi pour inclure davantage d’obstacles, l’équipe bleue avait de nouvelles boîtes plus allongées à sa disposition. Les robots pouvaient alors fabriquer des forts plus complexes et plus difficiles à pénétrer.
Ils ont aussi fini par comprendre qu’ils pouvaient bloquer l’accès aux rampes à l’autre équipe. OpenAI était alors certain que cela marquait la fin de l’expérience, mais l’équipe rouge a découvert un bogue qui lui permettait de franchir des barrières sans rampe.

Démonstration du « surf de boîte ».
Photo : OpenAI
Cette stratégie, baptisée surf de boîte
par l’équipe de recherche, consiste à se déplacer sur une boîte après avoir grimpé dessus à l’aide d’une rampe qui ne pouvait être manipulée.
Selon OpenAI, cette séquence d'événements indique que l’intelligence artificielle pourrait avoir la capacité de proposer des pistes de solutions inédites à des problèmes dans le monde réel.
On veut que les gens imaginent ce qui se passerait si on organisait une compétition de la sorte dans un environnement bien plus complexe. Les comportements appris pourraient résoudre des problèmes pour lesquels nous n’avons pas encore de solution
, a expliqué Bowen Baker au MIT Technology Review.
L’équipe bleue a fini par trouver une stratégie infaillible pour gagner toutes les parties : bloquer l’accès à tous les objets, y compris les boîtes, avant de construire son fort.
À lire aussi :
Avec les informations de MIT Technology Review, New Scientist et TechCrunch