Il y a plusieurs années, les développeurs de Boston Dynamics ont filmé plusieurs vidéos montrant comment les gens poussent des robots avec des bâtons de hockey et d'autres objets. La vidéo est rapidement devenue virale et de nombreux utilisateurs qui l'ont regardée ont prédit un soulèvement imminent de robots contre leurs bourreaux.
Mais, bien sûr, tout cela n'est pas pour rien - les robots ont appris à réagir à des facteurs externes inattendus. Et c'est très difficile, car il y a un grand nombre de scénarios différents à prévoir. Des chercheurs des universités du Zhejiang (Chine) et d'Édimbourg (Royaume-Uni) ont maintenant suivi les traces de Boston Dynamics. L'équipe de recherche a développéun programme complexe pour apprendre aux robots à tomber, à secouer, à dériver, etc. Pour autant que vous puissiez en juger, le programme est très efficace.
La tâche principale est d'apprendre aux robots à récupérer rapidement après avoir été littéralement largués. Pourquoi? Dans la vraie vie, si le robot doit effectuer certaines tâches en dehors du laboratoire, mais dans le monde ordinaire, il devra tomber à plusieurs reprises. Quelque part, la voiture glissera, peut-être que quelqu'un la poussera - par exemple, dans la rue, aux heures de pointe, lorsque le robot de messagerie ira livrer le colis. Et ceci sans parler du scénario où le robot acquiert le métier de sauveteur / éclaireur de la zone.
Quel que soit le métier du robot, il a besoin de compétences particulières. Pour le courrier - un ensemble de compétences, pour le sauveteur - le second, pour le géologue adjoint - le troisième. Dans tous les cas, il y aura des compétences uniques, plus des compétences universelles - la capacité de s'élever rapidement après une chute, par exemple.
Un groupe d'experts chinois et anglais est en train de créer une plate-forme logicielle pour entraîner un robot - dans notre cas, il s'agit d'un chien robot. Les experts ont déjà développé un système d'auto-apprentissage avec huit algorithmes de base qui permettent à un chien mécanique d'apprendre à interagir avec le monde réel. Pour la formation, un réseau neuronal spécialisé basé sur l'apprentissage par renforcement est impliqué. Premièrement, le réseau neuronal forme des robots virtuels, c'est-à-dire leurs modèles, développant différents scénarios pour répondre à des facteurs externes. Une fois cette étape terminée, le résultat d'apprentissage sous la forme d'un ensemble d'algorithmes est «versé» dans un vrai robot. Et nous obtenons un système déjà formé. Tout cela peut être comparé aux programmes que Neo a reçus dans The Matrix. Une fois - et il connaît le kung-fu, deux fois - il sait piloter un hélicoptère,trois - acquiert l'expertise des armes.
C'est à peu près la même chose avec un robot. Le programme fini est rempli - et la voiture jusqu'alors immobile sait déjà se relever après une chute, contourner les obstacles, marcher sur la glace, etc.
Un tel système d'entraînement est beaucoup plus efficace que la méthode d'essai et d'erreur avec un vrai robot. Afin d'apprendre à agir correctement dans des situations difficiles, le réseau de neurones effectue des milliers, voire des millions de simulations. Un vrai robot, s'il passait tous ces tests, se briserait après la dixième ou la centième chute. Et en simulation, vous pouvez tout faire, même supprimer le système d'un gratte-ciel, si vous en avez besoin pour vous entraîner.
Une autre caractéristique de la formation est qu'au départ, les compétences de base du robot sont formées séparément. Comme mentionné ci-dessus, il existe huit compétences en algorithme. Si auparavant nous comparions le programme d'entraînement avec la "Matrix", alors ici le scénario de l'équipe de football vient à la rescousse. Chaque compétence peut être comparée à un membre individuel de l'équipe - un gardien de but ou un milieu de terrain. Chacun d'eux est formé avec un ensemble spécial de compétences et, ensemble, après avoir obtenu certains résultats, ils forment tous une équipe efficace. C'est à peu près ainsi que tout fonctionne avec un robot - on lui apprend à se lever séparément, à contourner les obstacles séparément, etc. Et puis toutes ces compétences se réunissent. L'essentiel est de transformer toutes les compétences acquises en un seul système flexible, où rien ne se contredit et n'interfère pas les uns avec les autres.
L'image ci-dessus montre comment un robot apprend à marcher sur un terrain accidenté avec beaucoup de pierres. Il suit sa cible, une boule verte virtuelle, et tombe parfois. Après chaque chute, il acquiert une certaine expérience, ce qui lui permet d'éviter une situation similaire la prochaine fois. Après des milliers de chutes virtuelles, le robot apprend à marcher sur un terrain accidenté pratiquement sans erreur - et ne tombe pas. Et si c'est le cas, il se lève rapidement.
Tout cela est alors compliqué par l'ajout de facteurs externes - le robot est poussé dans différentes directions, des pierres sont lancées, etc. En conséquence, la machine s'adapte et entre en service très rapidement après avoir été exposée à des facteurs externes inattendus. Les développeurs disent que les enfants apprennent à peu près de la même manière - après tout, un enfant ne peut pas monter les escaliers, éviter les obstacles, éviter les dangers sous forme de flaques d'eau, etc. Tout cela doit être appris par essais et erreurs.
Les développeurs ne peuvent pas tout prévoir dans le monde, il est clair que le robot devra en quelque sorte réagir à des problèmes imprévus. Mais les compétences de base acquises grâce à une telle formation vous aideront à faire face aux tâches les plus difficiles. Eh bien, un robot pourra transférer l'expérience acquise au second, cela - au troisième, etc. Tout, comme Sheckley l'a décrit dans The Guardian Bird, seulement