Interaction entre l'agent et l'environnement - la voie vers l'AGI
Peut-on apprendre à un réseau neuronal à penser comme un humain? Ou du moins comme un animal? À quoi pensent les animaux? Pouvez-vous appeler ce qui se passe dans les reflets de la tête du chat? Et quel est le secret de la conscience après tout? Ci-dessous, nous essaierons de comprendre tous ces problèmes.
Ce n'est un secret pour personne que les réseaux de neurones peuvent se rapprocher de n'importe quelle fonction, il existe même des théorèmes le prouvant. Il existe une couche d'entrée, des couches masquées et une couche de sortie. Dans le cas de l'apprentissage par renforcement, la couche d'entrée est la manière dont l'environnement agit sur l'agent. Et la couche de sortie correspond aux actions de l'agent sur l'environnement. Pour obtenir un agent suffisamment intelligent, nous avons besoin de 3 choses: un nombre suffisant de neurones dans des couches cachées, un environnement suffisamment élaboré qui permet de recevoir un renforcement, et nous avons également besoin d'un grand nombre de neurones d'entrée et de sortie pour maximiser l'interaction avec l'environnement.
Considérez le cerveau humain - 100 milliards de neurones. Formellement, il s'agit d'environ 10 couches de 10 milliards de neurones. Écrivez dans les commentaires la puissance nécessaire pour calculer ce montant. Pour les expériences, vous pouvez utiliser le nombre de neurones 10 à 100 fois inférieur.
L'environnement doit être aussi diversifié que le monde qui nous entoure. On peut mettre un robot agent en réalité ou lui apprendre en réalité virtuelle, en lui demandant un renforcement de la fonction (l'action de l'agent) que l'on aimerait qu'il accomplisse.
Je voudrais m'arrêter sur les neurones d'entrée et de sortie séparément. Leur objectif est l'interaction avec l'environnement. Les neurones d'entrée d'un chat sont tous ses récepteurs dans les yeux, les oreilles et la peau, ainsi que bien d'autres. Les neurones de sortie sont principalement connectés à divers muscles, ce qui donne à la créature la capacité d'interagir avec l'environnement (le retour de l'agent sur l'environnement). Plus il y a de neurones d'entrée et de sortie - meilleure, plus large et meilleure l'interaction «environnement-agent-environnement»
Regardons quelques exemples. Les récepteurs détectent le manque d'air - le cerveau force les poumons à respirer. Les récepteurs de l'estomac parlent de faim - le cerveau prend la fonction d'obtenir de la nourriture dans un environnement donné. Ou un exemple avec une aiguille - si quelque chose pique la peau, le signal va au cerveau, il y est traité et le cerveau donne un ordre à la main pour se débarrasser de ce problème. Tout se résume à une chose simple: lorsque les récepteurs ne sont pas perturbés, il n'y a pas d'action. Mais si le récepteur est excité, alors le cerveau recherche une solution qui aiderait à supprimer l'excitation de ce récepteur. Dès que la chaîne désirée est trouvée et que le récepteur a perdu son excitation, les connexions neurales de cette chaîne se renforcent. Et la prochaine fois, cette chaîne d'actions sera une priorité. Cela se produit avec toutes les actions de notre vie. Ainsi, vous pouvez créer un agent pour n'importe quel environnement et pour toutes les fonctions dont nous avons besoin.La question réside uniquement dans la capacité de production.