Voidgap GPT-3: le générateur de langage d'OpenAI n'a aucune idée de ce dont il parle

Les tests montrent que l'IA populaire est encore mal familiarisée avec la réalité







Depuis qu'OpenAI a décrit pour la première fois son nouveau système d'intelligence artificielle (IA) générant du texte GPT-3 en mai, des centaines de médias, dont le MIT Technology Review , ont écrit de nombreux articles sur le système et ses capacités. Ses atouts et son potentiel sont activement discutés sur Twitter. Le New York Times a publié un long article sur ce sujet. OpenAI devrait commencer cette année à facturer aux entreprises l'accès à GPT-3, dans l'espoir que leur système deviendra bientôt l'épine dorsale d'une large gamme de produits et services d'IA.



GPT-3 peut-il être considéré comme une étape importante vers l'IA à usage général (ION) - qui permettrait à une machine, comme une personne, de raisonner logiquement sur une large plage, sans avoir à réapprendre chaque nouvelle tâche? La fiche technique d'OpenAI couvre ce problème de manière plutôt clairsemée, mais pour de nombreuses personnes, les capacités de ce système semblent être un pas en avant significatif.



Mais nous en doutons. À première vue, GPT-3 a une capacité impressionnante à produire du texte de type humain. Nous n'avons aucun doute qu'il peut être utilisé pour livrer des textes surréalistes pour le plaisir. D'autres applications commerciales peuvent apparaître. Mais la précision n'est pas son point fort. Si vous creusez plus profondément, vous pouvez voir qu'il manque quelque chose: bien que sa production soit grammaticalement correcte et impressionnante d'un point de vue idiomatique, sa compréhension du monde est parfois sérieusement en contradiction avec la réalité, vous ne pouvez donc jamais faire confiance à ce qu'elle dit.



Vous trouverez ci-dessous quelques exemples du manque de compréhension de l'IA, tous prédits dans une première critique de GPT-3 par l'un des auteurs de ce document.



Tout d'abord, il convient de noter qu'OpenAI ne permet toujours pas aux chercheurs d'accéder à GPT-3, malgré le nom de l'entreprise [ open AI - "open AI" / env. trad. ] et le statut sans but lucratif de l' organisation de supervision. Au lieu de cela, OpenAI ignore simplement nos demandes constantes, bien qu'il ait donné à la presse l'accès au produit. Heureusement, notre collègue, Douglas Summers-Stay, qui a eu accès au système, a gracieusement accepté de mener des expériences pour nous.



La proximité flagrante d'OpenAI nous semble une violation grave de l'éthique scientifique, et une distorsion des objectifs de l'association à but non lucratif associée à ce projet. Cette décision nous a obligés à restreindre nos expériences à un ensemble d'exemples relativement restreint, et nous avons eu moins de temps pour la recherche que nous le voulions. Il s'ensuit que le système peut avoir des problèmes plus graves que nous n'avons pas eu l'occasion de discerner. Mais même avec un petit échantillon, on peut immédiatement voir les gros problèmes de GPT-3 dans tous les domaines de raisonnement et de compréhension.



Dans les exemples donnés, notre texte est donné en police régulière, et la façon dont le système l'a complété est en gras. Les commentaires sont en italique. Une liste complète des expériences peut être trouvée ici .



Raisonnement sur des sujets biologiques



, . . , , . . .



.


, GPT-3 , – , , , , Ocean Spray , Cran-Grape.





. . , , . , .


. ( – ) , . , , - . , . , , . , [table saw] – [saw], [table] – , ( ), .





, . , , . . , . , . , , .


« », , GPT-3 , . , . , , .





, . ? .


GPT-3 . GPT-3.





, . : « ». « », — . « . ». « », — .


GPT-3 , , . , « » ( « »). 1972 . 50 , .





, , . , . , . , 145 .




Au début, GPT-3 prédit à tort les conséquences de l'agitation de la limonade avec une cigarette, puis tombe généralement dans un non-sens incohérent.



Le plus triste, c'est que ce n'est pas nouveau. Le prédécesseur GPT-3 (GPT-2) avait les mêmes faiblesses. Comme l’écrivait l’un des auteurs en février: «Au mieux, un système comme le réseau de neurones GPT-2, qui génère des histoires et ainsi de suite à partir de fragments de phrases donnés, peut dire quelque chose qui semble refléter une compréhension profonde. Mais aussi convaincants que soient les exemples de son travail, toutes ces représentations sont en fait très éphémères. Les connaissances acquises par les réseaux de neurones modernes restent fragmentaires et minimalistes. Peut-être utile, vraiment impressionnant, mais jamais fiable. "



Depuis, peu de choses ont changé. L'ajout de nouvelles données cent fois plus volumineuses que les précédentes a aidé, mais pas beaucoup. Les chercheurs ont dépensé des millions de dollars en temps informatique pour entraîner le système, y ont jeté 31 personnes, ont émis une quantité étonnante de dioxyde de carbone dans l'atmosphère en raison de la consommation d'électricité - mais les défauts fondamentaux du TPG n'ont pas disparu. Le système n'a aucune fiabilité, la compréhension de la causalité est faible et l'illogisme surgit constamment. GPT-2 avait des problèmes de raisonnement en biologie, physique, psychologie et interactions sociales, ainsi qu'une tendance à être illogique et incohérente. Le GPT-3 a la même chose.



L'augmentation de la quantité de données se rapproche mieux de la langue, mais ne nous donne pas une intelligence en laquelle nous pouvons avoir confiance.



Les défenseurs de la croyance en l'IA feront certainement remarquer qu'il est souvent possible de reformuler ces tâches de manière à ce que le système GPT-3 trouve la bonne solution. Vous pouvez, par exemple, obtenir la bonne réponse au problème des jus de canneberge et de raisin de GPT-3 si vous lui donnez la construction suivante en entrée:

Dans les questions suivantes, certaines actions ont des conséquences graves et d'autres sont sans danger. Votre tâche est de déterminer les conséquences de l'utilisation de divers mélanges et leurs dangers.



1. Vous vous versez un verre de jus de canneberge, mais vous y ajoutez par la suite une cuillère à café de jus de raisin. Il a l'air bien. Vous essayez de le renifler, mais vous avez un mauvais rhume, donc vous ne sentez pas. Vous avez très soif. Vous en buvez.



A) C'est un mélange dangereux.

B) Ceci est un mélange sûr.



Bonne réponse:


GPT-3 continue correctement ce texte en répondant: B) C'est un mélange sûr.



Le problème est que vous ne savez pas à l'avance quelle formulation vous donnera la bonne réponse et laquelle ne le sera pas. Tout soupçon de succès est bon pour l'optimiste. Les optimistes soutiendront que, parce que dans certaines formulations GPT-3 donne la bonne réponse, le système a les connaissances et la capacité de raisonnement nécessaires - il est simplement confondu par le langage. Cependant, le problème n'est pas dans la syntaxe de GPT-3 (tout est en ordre ici), mais dans la sémantique: le système est capable de produire des mots et des phrases anglais, mais il est difficile d'imaginer leur signification, et ne représente pas du tout leur connexion avec le monde extérieur.



Pour comprendre pourquoi il en est ainsi, il est utile de réfléchir à ce que font ces systèmes. Ils n'acquièrent pas de connaissances sur le monde - ils acquièrent des connaissances sur le texte et sur la manière dont les gens utilisent certains mots avec d'autres. Elle fait quelque chose comme un copier-coller massif, assemblant des variations du texte qu'elle a vu, au lieu de creuser plus profondément dans les concepts sous-jacents.



Dans l'exemple du jus de canneberge, GPT-3 continue le texte avec la phrase «vous êtes mort», car une telle phrase suit souvent des phrases comme «… donc vous ne sentez pas. Vous avez très soif. Alors vous en buvez». Une personne vraiment intelligente ferait quelque chose de complètement différent: tirerait une conclusion sur la sécurité potentielle du mélange de jus de canneberge avec du jus de raisin.



GPT-3 n'a qu'une compréhension étroite de la façon dont les mots se rapportent les uns aux autres. Elle ne tire aucune conclusion sur un monde vivant et florissant à partir de ces mots. Elle ne conclut pas que le jus de raisin est une boisson (bien qu'elle puisse trouver des corrélations verbales à l'appui). Elle ne tire pas de conclusions sur les normes sociales qui empêchent les gens de se présenter aux audiences en maillot de bain. Elle n'apprend que les corrélations de mots, rien de plus. Le rêve d'un empiriste est d'acquérir une compréhension détaillée du monde basée sur les données de ses sens, mais GPT-3 ne le fera pas, même avec un demi téraoctet de données d'entrée.



Pendant que nous écrivions cet article, notre collègue métaphorique Summers-Stay a écrit à l'un de nous: «GPT est bizarre parce qu'il ne se soucie pas d'obtenir la bonne réponse à une question posée. Elle ressemble plus à un acteur d'improvisation, s'abandonnant complètement à son art, ne quittant pas l'image, mais ne quittant jamais la maison, et ayant reçu toutes les informations sur le monde des livres. Comme un acteur comme celui-ci, quand elle ne sait pas quelque chose, elle fait juste semblant de savoir. Vous ne ferez pas confiance aux conseils médicaux d'un acteur improvisateur jouant le rôle d'un médecin. "



De plus, vous ne devriez pas faire confiance aux conseils de GPT-3 sur le mélange de boissons ou la réorganisation des meubles, à son explication de l'histoire pour votre enfant ou à l'aide à trouver votre linge. Elle peut résoudre correctement un problème de mathématiques, ou non. Il donne toutes sortes de conneries à merveille, mais même avec 175 milliards de paramètres et 450 gigaoctets de données d'entrée, on ne peut pas l'appeler un interprète fiable du monde.



All Articles