- Les textes générés par le système de dialogue correspondent au «bon sens».
- Les réponses du système correspondent au contexte du dialogue et aux attentes de la personne.
- Comprendre les objectifs, les intentions des déclarations d'une personne dans le dialogue.
La compréhension du sens ne peut pas être entièrement attribuée au sujet de la compréhension du contexte du dialogue, car le sens de la déclaration de l'interlocuteur peut être interprété de différentes manières, et il n'est pas clair à quelle interprétation l'état de compréhension doit correspondre. Les «erreurs» de l'opinion de l'interlocuteur (personne) peuvent-elles être interprétées comme une compréhension différente du sens de l'expression par le système? Dans une plus grande mesure, comprendre la signification fait référence à la compréhension des intentions et des objectifs de l'énoncé, et il s'agit d'un sujet distinct dans la théorie de l'esprit. Le «bon sens» comme critère de compréhension peut être interprété plus précisément. Dans un sens général, c'est la correspondance de la réponse à l'image du monde, qui est vérifiable. Et c'est aujourd'hui le meilleur critère pour comprendre le contexte du dialogue par des agents artificiels tels que les robots de dialogue. Mais jusqu'à présent, les robots n'ont pas réussi à le faire.
Analyse des approches
La réponse pertinente est le critère le plus simple pour que le bot comprenne l'interlocuteur (personne). Mais ce critère est facile à «truquer», ce qui a été démontré plus d'une fois par les participants au prix Loebner. Il est réalisé en plaçant un grand nombre de modèles de réponses variables sur les «intentions» reconnues par le réseau neuronal. C'est difficile d'appeler la compréhension. Mais le succès de ces robots est également modeste - ils reconnaissent extrêmement mal les intentions mixtes. Une question en dehors des modèles et le système échoue. Il est facile de vérifier cela sur des bots comme Alice de Yandex et Siri d'Apple. On peut dire que la connaissance du monde pour de tels systèmes est fragmentaire.
Une autre voie est la construction d'ontologies qui couvrent toutes les connaissances sur le monde afin d'avoir des réponses aux questions. Ceci est réalisé grâce à la capacité d'identifier une question sur la branche de l'ontologie et de construire la bonne réponse en fonction des connaissances qui y sont intégrées. Les ontologies prétendent couvrir l'ensemble du monde avec une ontologie. Cette approche a été utilisée par des projets tels que CYC et ABBYY Compreno. Nous pouvons maintenant affirmer que cette méthode de résolution du problème de la «compréhension» a échoué. Des décennies de construction manuelle de telles ontologies par les ingénieurs en développement ne leur ont pas permis d'en construire une qui n'échouerait pas même sur de simples questions d'enfants. Les problèmes d'ontologies sont principalement associés à la nature métaphorique du langage et de l'homonymie, qui ne peuvent pas être systématiquement posées dans une structure «logique» arborescente d'ontologies. Les mêmes tentatives incluent les projets FrameNet (Fillmore),consistant en la construction de scénarios basés sur un cadre sémantique pour refléter les faits du monde. Mais pour les mêmes raisons, le projet n'a pas pu être développé.On peut dire que de tels systèmes ne sont pas capables de réaliser la parcimonie du langage comme la capacité de décrire un grand nombre de concepts à travers le mécanisme de la métaphore avec un vocabulaire limité.
Depuis 2010, l'accent a été mis davantage sur les réseaux de neurones, mais ils sont limités dans la mesure où ils ne peuvent faire des hypothèses que dans le cadre de l'image du monde qui était présente dans l'ensemble de formation. Des réseaux tels que GPT-3 (février 2019) dans le projet OpenAI, construit sur l'architecture Transformer (un réseau génératif formé sur des milliards de mots en termes de texte), génèrent des textes «humains» grammaticalement corrects qui n'ont aucun sens, ce qui indique un malentendu total de leur part. " bon sens »comme dans l'exemple ci-dessous.
Exemple:
Vous: Combien d'yeux a un loup?
GPT-3: Un loup a quatre yeux.
Vous: Pourquoi quatre?
GPT-3: Deux sont pour voir dans le noir avec.
Vous: Pourquoi deux?
GPT-3: Le loup a besoin de voir si sa nourriture est prête.
Vous: Et combien d'yeux a un humain?
GPT-3: Un humain a deux yeux et deux oreilles pour entendre.
Vous: Et combien d'yeux a un brin d'herbe?
GPT-3: Un brin d'herbe a un œil et une oreille pour voir et entendre.
Vous: Pourquoi un?
GPT-3: pour s'assurer qu'il ne soit pas piétiné.
On peut dire que de tels systèmes peuvent générer un énoncé sur n'importe quelle question, même absente des textes éducatifs, mais on ne peut garantir qu'ils construisent des faits de «bon sens» correspondant à l'image du monde.
Il existe des approches combinées comme COMET, fondée par Yejin Choi (1), dans laquelle une base de connaissances «manuscrite» des faits du monde atomique a été utilisée pour recycler le modèle de langage pré-entraîné GPT-2. En conséquence, le réseau a commencé à générer des faits beaucoup plus plausibles qui sont absents à la fois d'Atomic et de l'ensemble d'entraînement GPT. Mais le succès d'un tel projet est également modeste jusqu'à présent, car il n'y a pas de réponse garantie.
Les systèmes DeepMind sont intéressants, qui, en plus d'un réseau de neurones, ont une mémoire externe des faits (ou de l'expérience), qui leur permet d'apprendre les «règles du jeu» sans enseignant, simplement en étant actif dans l'environnement et en enregistrant son résultat. Et de cette façon d'apprendre, même en jouant les uns avec les autres, ce qui a permis de battre des joueurs humains même dans des jeux comme Go. Ceci est maintenant considéré comme le courant dominant dans les agents de construction qui «comprennent le monde» du jeu. Mais l'architecture d'un tel système d'auto-apprentissage ne permet pas de l'adapter à une réalité plus complexe qu'un jeu de cailloux noir et blanc ou un jeu informatique primitif Atari. La manière d'enseigner a clairement une limite technologique de complexité.Nous pouvons dire que de tels systèmes créent une «image du monde» non en utilisant les connaissances pour construire de nouvelles connaissances afin d'économiser les ressources du système. Par conséquent, ils ont besoin de trop de ressources pour apprendre même dans des environnements pauvres.
Sommaire
Que peut-on alors appeler «compréhension» des systèmes artificiels d'un point de vue pragmatique? La réponse commune est que l'agent doit avoir des connaissances. En même temps, comme le montre l'expérience, il est impossible de construire une connaissance globale. Une autre réponse peut être la cohérence des réponses du système. Mais comme nous pouvons le voir, les systèmes formés sur des textes volumineux ne diffèrent pas en termes de logique dans les déclarations qu'ils génèrent.
Comprendre par un système d'IA signifie sa capacité à DÉLIVRER des hypothèses plausibles sur l'image du monde à partir d'une connaissance fragmentaire des faits de ce monde. Et pour économiser de l'argent, le système doit être capable d'utiliser un langage limité pour décrire un nombre infini de faits, ce qui est réalisé par des mécanismes comme la métaphore. Pour le moment, cependant, ce mécanisme n'est pas suffisamment connu pour être incorporé dans le code du programme. Les concepts disponibles de métaphore ne sont pas spécifiques d'un point de vue algorithmique, comme la métaphore conceptuelle ou les mélanges. Les mathématiques ne leur sont pas encore applicables, mais le travail de l'auteur va dans ce sens.
Selon l'auteur, un tel achèvement est le principal critère de la capacité de compréhension d'un système artificiel. Lorsque «l'image du monde» est limitée, par exemple aux échecs, nous sommes en mesure de définir explicitement des algorithmes pour la production de connaissances, c'est-à-dire des mouvements possibles, afin que les échecs puissent s'orienter dans n'importe quel arrangement de pièces qui n'a même pas été rencontré auparavant. Mais comment faire cela dans le monde réel, où il existe de nombreux ordres de grandeur plus de règles, on ne sait pas encore ce qui constitue la direction principale de la recherche de l'auteur.
Bibliographie
1. Le bon sens se rapproche des ordinateurs, Quantamagazin, 30 avril 2020