Tout est question de "carotte" virtuelle: Uber a créé un algorithme qui peut battre une personne dans le jeu Atari



Dans le laboratoire d'IA, Uber AI Labs a créé une nouvelle famille d'algorithmes Go-Explore. L'algorithme est basé sur l'apprentissage par renforcement. Go-Explore surpasse la plupart des conceptions existantes lorsqu'il est testé sur les jeux Atari classiques des années 1980.



L'IA d'Uber a joué à 11 des matchs les plus difficiles au total, dont Montezuma's Revenge et Pitfall . En termes de nombre de points marqués, il a fait le tour des gens. L'algorithme n'est pas développé pour le plaisir des jeux: dans un futur proche, l'algorithme pourra être utilisé pour l'enseignement de la robotique, le traitement des langages naturels, la création de nouveaux médicaments, etc. Quelle est la base de l'algorithme?



Apprentissage par renforcement



Commençons par rappeler ce qu'est l'apprentissage par renforcement et pourquoi il a un fort potentiel.



Il s'agit d'une forme bien connue de formation sur les réseaux neuronaux. L'avantage de cette technologie réside dans un élément appelé agent . Il ne travaille pas seul, mais apprend à interagir avec l'environnement. L'environnement réagit aux actions de l'agent, créant un effet gratifiant.



L'IA tente d'obtenir une carotte virtuelle, elle agit donc sur la base de la possibilité de recevoir une récompense. Si cela n'apporte pas, la prochaine fois l'opération est considérée comme moins souhaitable.



Dans le cadre d'une utilité donnée, la formation récompense maximise le résultat.



Quel algorithme Uber a-t-il créé?



La principale caractéristique distinctive de l'algorithme Uber est de se souvenir des états de perspective précédents. De plus, l'algorithme est non seulement capable de les reproduire, mais effectue également des reconnaissances . Comme si on posait la question encore et encore: "Et si?" Et à la recherche d'une nouvelle meilleure réponse. Grâce à une telle chaîne, il est possible d'augmenter l'efficacité de l'algorithme d'apprentissage.



La famille d'algorithmes d'IA Uber Labs a une capacité importante à se souvenir des états prospectifs précédents. Dans de petites itérations, l'algorithme construit une archive d'états. Et ils, à leur tour, sont regroupés en cellules.



Les phases de workflow, d'exploration et de robustification de



Go-Explore de Go-Explore résolvent deux problèmes importants de l'apprentissage des récompenses.



Premier problème. L'algorithme se désintéresse des états précédemment traversés. De plus, certaines de ces conditions peuvent être prometteuses, mais l'algorithme commence à les ignorer.



Deuxième problème. Le processus de recherche empêche un retour aux premiers états de l'algorithme. Au lieu de reculer, l'IA va trop loin du point de départ et met à l'échelle arbitrairement des actions aléatoires.



Tester l'algorithme sur les jeux



Uber s'est tourné vers les jeux Altari classiques pour s'assurer que son développement était efficace. Ils ont pris le plus dur des jeux, le plus difficile à gérer pour un ordinateur. Les difficultés proviennent d'une récompense trop rare. Dans de tels cas, des centaines d'opérations passent entre l'action de l'algorithme et le résultat réussi. Il devient difficile de déterminer exactement quelles actions ont aidé à recevoir une récompense virtuelle.





Alors, comment l'algorithme d'Uber gère-t-il cela? Il envoie des états similaires à une cellule. Le cycle commence par sélectionner des états dans une cellule, où ils sont classés par poids. Dans ce cas, la préférence est donnée aux états récemment trouvés, à partir desquels de nouveaux domaines sont explorés. Ensuite, l'archive est mise à jour. Ainsi, Go-Explore traite le nombre maximal d'options disponibles et, surtout, ne manque pas les états les plus intéressants.



De plus, l'algorithme a la possibilité de faire de la robustificationtrouvé des solutions et exclure les interférences externes ou les interférences. Cette option réduit le niveau de bruit dans les trajectoires trouvées. Pourquoi est-ce nécessaire? Chez Atari, l'environnement et les actions sont bien définis: des mouvements spécifiques mènent aux résultats attendus. Pour réduire le déterminisme, des retards artificiels ont été introduits dans le jeu. De sorte que l'algorithme effectue non seulement des actions préalablement vérifiées, mais apprend également dans des conditions proches des réelles.



En conséquence, Go-Explore a montré de bons résultats dans le jeu dans deux situations:



  1. En cas d'inconnu, lorsque l'algorithme manque d'informations primaires.
  2. S'il y a des informations: l'algorithme connaît l'entrée (coordonnées, clés, etc.).


Dans le second cas, comme prévu, les résultats sont plus élevés. Ainsi, Go-Explore dans Montezuma's Revenge a battu le résultat d'un joueur humain de 42,5%, gagnant 1,73 million de points.



Go-Explore pour les robots





En plus des jeux Atari, la famille d'algorithmes a été testée sur un bras robotique. Go-Explore a effectué avec succès des mouvements de bras de robot dans le simulateur, où il était nécessaire de réorganiser les articles sur les étagères. De plus, le bras robotique pouvait non seulement les réorganiser, mais aussi les récupérer derrière des portes avec des serrures.






All Articles