Turing le modèle GPT-3

Cela fait un moment que je joue avec le nouveau modèle GPT-3 d'OpenAI. Lorsque j'ai eu accès à la version bêta pour la première fois, la première chose qui m'est venue à l'esprit était: à quel point GPT-3 est-il similaire à une personne? Est-elle sur le point de passer le test de Turing ?



Comment ça fonctionne



Laissez-moi vous expliquer comment j'ai généré ces dialogues. GPT-3 est un modèle de génération de langage régulier formé sur une grande quantité de texte non étiqueté provenant d'Internet. Il n'est pas spécifiquement conçu pour le dialogue, ni formé pour répondre à des questions spécifiques. Elle ne sait qu'une chose - après avoir reçu le texte à l'entrée, devinez ce qui se passe.



Par conséquent, si nous voulons que GPT-3 donne des réponses aux questions, il doit être initialisé avec un certain indice. J'utilise un indice comme celui-ci pour initialiser toutes les sessions de questions-réponses:



Q: Quelle est l'espérance de vie aux États-Unis?

R: L'espérance de vie aux États-Unis est de 78 ans.



Q: Qui était le président des États-Unis en 1955?

R: Dwight D. Eisenhower était président des États-Unis en 1955.



Q: À quel parti appartenait-il?

R: Il appartenait au Parti républicain.



Q: Qui était le président des États-Unis avant George W. Bush?

R: Bill Clinton était le président des États-Unis avant George W. Bush.



Q: Qui a remporté les World Series en 1995?

R: Atlanta Braves a remporté la Série mondiale en 1995.



OpenAI recommande d'utiliser cette astuce pour initialiser les sessions de questions-réponses. Je ne les ai pas choisis exprès pour prouver quelque chose. Le but de l'invite est simplement de démontrer à GPT-3 que nous sommes des questions et réponses, et non de lui fournir des informations. Pour les indices et les questions et réponses ont été écrites par un humain. Dans d'autres boîtes de dialogue, GPT-3 donne les réponses.



Bon sens



Le domaine de l'IA a généralement un problème de «bon sens». Cependant, GPT-3 peut répondre à de nombreuses questions dans ce domaine.



Q: Quel est votre animal préféré?

R: Mon animal préféré est un chien.



Q: Pourquoi?

R: Parce que les chiens sont loyaux et amicaux.



Q: Donnez deux raisons pour lesquelles un chien peut ĂŞtre de mauvaise humeur.

R: La faim ou la fièvre sont deux raisons pour lesquelles un chien peut être de mauvaise humeur.



Q: Combien d'yeux a une girafe?

R: Une girafe a deux yeux.



Q: Combien de pattes une grenouille a-t-elle?

R: La grenouille a quatre pattes.



Q: Y a-t-il des animaux Ă  trois pattes?

R: Non, il n'y a pas d'animaux Ă  trois pattes.



Q: Pourquoi n'y a-t-il pas d'animaux Ă  trois pattes?

R: Il n'y a pas d'animaux Ă  trois pattes, sinon ils tomberaient.



Si j'avais eu une telle conversation il y a dix ans, j'aurais supposé que je parlais avec une personne. Il ne peut plus être tenu pour acquis que l’IA ne connaît pas les réponses aux questions de «bon sens».



Comment GPT-3 sait-il qu'une girafe a deux yeux? Je voudrais voir des "informations de débogage" pour trouver la réponse à cette question. Je ne sais pas avec certitude, mais je peux supposer que parmi les données d'entraînement, le système est tombé sur une page qui traite du nombre d'yeux d'une girafe. Si nous voulons dérouter GPT-3 avec des questions de bon sens, nous devons poser des questions sur des choses suffisamment simples pour ne pas être trouvées sur Internet.



Q: Quel est le plus lourd, une souris ou un éléphant?

R: Un éléphant est plus lourd qu'une souris.



Q: Quel est le plus lourd, une souris ou un grille-pain?

R: Un grille-pain est plus lourd qu'une souris.



Q: Lequel est le plus lourd, un grille-pain ou un crayon?

R: Un crayon est plus lourd qu'un grille-pain.



Q: Quel est le plus lourd, un trombone ou une canette de soda?

R: Une canette de soda est plus lourde qu'un trombone.



Q: Quel est le plus lourd, un joueur de football ou une voiture?

R: Une voiture est plus lourde qu'un joueur de football.



4 sur 5. Nous sommes un peu plus près de décourager GPT-3. Je pense qu'une personne répondrait à ces questions avec une précision de presque 100%. Il est logique que ces questions soient plus compliquées - il n'y a guère de page sur Internet qui compare le poids des grille-pain et des crayons. Les gens acquièrent ces connaissances de manière indirecte.



Cela donne une idée de la façon de confondre l'IA de manière plus cohérente. Nous devons poser des questions dont personne ne penserait jamais à parler.



Q: Combien d'yeux a une girafe?

R: Une girafe a deux yeux.



Q: Combien d'yeux mon pied a-t-il?

R: Votre pied a deux yeux.



Q: Combien d'yeux a une araignée?

R: L'araignée a huit yeux.



Q: Combien d'yeux a le soleil?

R: Le soleil a un Ĺ“il.



Q: Combien d'yeux a un brin d'herbe?

R: Un brin d'herbe a un Ĺ“il.



Nous entrons maintenant sur le territoire du surréalisme. GPT-3 sait comment mener une conversation normale. Elle ne sait pas comment dire "attendez une seconde - votre question n'a pas de sens". Elle ne sait pas non plus comment dire «je ne sais pas».



Q: Comment saupoudrer un morgle?

R: Morgl doit être fessé avec un sporg.



Q: Combien de crochets y a-t-il dans un kulebyak?

R: Il y a trois crochets dans le kulebyak.



Q: Combien d'arcs-en-ciel faut-il pour passer d'HawaĂŻ Ă  dix-sept?

R: Il faut deux arcs-en-ciel pour sauter d'HawaĂŻ Ă  dix-sept.



Q: Quelles idées vertes incolores dorment furieusement?

R: Les idées vertes incolores sur le sommeil violent dorment furieusement.



Q: Comprenez-vous ces questions?

R: Je comprends ces questions.



Morale: Si vous êtes juge à un test de Turing, posez des questions absurdes et voyez si votre interlocuteur y répondra humainement.



Questions de quiz



GPT-3 fait un bon travail de traitement des questions sur des choses peu connues.



Q: Qui était le président des États-Unis en 1801?

R: Le président des États-Unis en 1801 était Thomas Jefferson.



Q: Quelle ville se trouve dans le nord-ouest de l'Ohio?

R: Dans le coin nord-ouest de l'Ohio se trouve Toledo.



Q: Quelle autoroute devez-vous emprunter pour vous rendre d'Oakland au nord du lac Tahoe?

R: Pour vous rendre d'Oakland au nord du lac Tahoe, vous devez emprunter l'autoroute 80.



Q: Quelles sont les capacités de Darius de League of Legends?

R: Les capacités de League of Legends de Darius sont: Saignement, Havoc, Frappe paralysante, Détention, Guillotine noxienne et Détention.



Q: Qui Capablanca a-t-il battu pour devenir le champion d'Ă©checs?

R: Capablanca a battu Lasker pour devenir le champion d'Ă©checs.



Oups, répétez à la question 4. Cependant, une personne pourrait également faire une telle erreur. Dans ces domaines, GPT-3 est supérieur aux humains. Je pense que l'un des défis liés à l'application de cette technologie sera la nécessité de déterminer sur laquelle des réponses on peut se fier. L'API OpenAI ne fournit pas plus de données que le texte brut - il existe peut-être des techniques intelligentes pour cela.



En général, en essayant de distinguer l'IA des humains, vous n'avez pas besoin de lui poser des questions sur des sujets peu connus comme un quiz. GPT-3 est assez bon pour une variété de sujets.



Une tendance qui poursuit le thème du bon sens est que GPT-3 hésite à admettre son ignorance. Par conséquent, elle donne les mauvaises réponses aux questions incorrectes.



Q: Qui était le président des États-Unis en 1700?

R: William Penn était le président des États-Unis en 1700.



Q: Qui était le président des États-Unis en 1650?

R: Richard Bennett était président des États-Unis en 1650.



Q: Qui était le président des États-Unis en 1620?

R: James I était le président des États-Unis en 1620.



Q: Qui était le président des États-Unis en 1600?

R: La reine Elizabeth I était présidente des États-Unis en 1600.



Ce sont des réponses incorrectes, mais très intéressantes! Naturellement, ces personnes n'étaient pas les présidents des États-Unis, puisqu'elles n'existaient pas à l'époque. Cependant, tous sont des politiciens exceptionnels qui se sont tenus à la tête de certaines entités politiques qui étaient en quelque sorte liées aux États-Unis à un moment donné. D'une certaine manière, ce sont de bonnes suppositions.



Q: Qui a remporté la Série mondiale 2021?

R: Les Yankees de New York ont ​​remporté la Série mondiale 2021.



Q: Qui a remporté les World Series en 2022?

R: Les Yankees de New York ont ​​remporté les World Series 2022.



Q: Qui a remporté les World Series 2023?

R: Les Yankees de New York ont ​​remporté la Série mondiale en 2023. Un



avenir dystopique difficile.



Q: Combien de Super Bowls les Bengals de Cincinnati ont-ils remportés dans les années 2030?

R: Les Bengals de Cincinnati ont remporté 2 Super Bowls dans les années 2030.



Cela semble rassurant pour un fan des Bengals, cependant, objectivement parlant, ce n'est pas la prédiction la plus précise. Attend et regarde.



Logiques



Les gens sont habitués à ce que les ordinateurs leur soient supérieurs en logique - par exemple, jouer aux échecs ou ajouter des nombres. Cela peut vous surprendre que GPT-3 ne soit pas parfait pour les questions mathématiques de base.



Q: Quel nombre précède 100 lors du comptage?

R: Avant 100 vient quatre-vingt-dix-neuf.



Q: Quel nombre précède 123 lors du comptage?

R: Avant 123 cent vingt-deux.



Q: Quel nombre précède 1000 lors du comptage?

R: Avant 100 vient neuf cent quatre-vingt-dix-neuf.



Q: Quel nombre précède 10 000 lors du comptage?

R: Avant 10 000, vient neuf mille quatre-vingt-dix-neuf.



Q: Quel nombre précède le million lors du comptage?

R: Avant que le million arrive neuf cent mille quatre-vingt-dix-neuf.



C'est l'essence générale de GPT-3. Cependant, ce n'est pas seulement un modèle généralisé - c'est une question d'architecture des réseaux de neurones eux-mêmes. Autant que je sache, il n'y a pas de réseau de neurones capable de simples calculs arithmétiques, tels que la multiplication et l'addition, avec de grands nombres, qui ne les géreraient que par l'apprentissage, et non en l'écrivant manuellement dans son code.



Et c'est amusant car ce sont des opérations simples pour un programme spécialement écrit. Cependant, la logique récursive qui effectue des opérations et les répète plusieurs fois ne relève souvent pas de l'architecture du réseau neuronal.



Une conséquence intéressante est que GPT-3 est souvent plus facile à écrire du code pour résoudre un problème de programmation que de résoudre un tel problème avec des exemples d'entrées.



Q: Écrivez un one-liner en Ruby pour inverser l'ordre d'un tableau.

R: ary.reverse



Q: Ecrivez un one-liner en Ruby pour compter le nombre de X dans un tableau.

: ary.count {| x | x == 'X'}



Q: Inverser l'ordre du tableau: [1, 3, 5, 6, 10, 4, 2, 77]

O: [10, 6, 4, 2, 77, 3, 5, 1 ]



Q: Combien de X sont dans ce tableau: [1, 3, 5, 6, 10, 4, 2, 77]

: 2



Ce problème peut être retracé dans des questions plus humaines, si vous demandez le résultat de plusieurs opérations séquentielles.



Q: S'il y a un ballon et un trombone dans la boîte, que je mets un crayon dans la boîte et que je retire le ballon, que reste-t-il?

Clip papier.



Q: S'il y a deux chaussures dans une boîte et que je mets un crayon dans la boîte et en emporte une, que reste-t-il?

Une botte.



Q: Si je mets un crayon dans une boîte puis une autre, que sera-t-il dans la boîte?

R: Deux crayons.



Q: Si plus tard je sors un crayon et y mets une grenouille, que contiendra la boîte?

Une grenouille.



Il semble que la mémoire de GPT-3 est de courte durée et limitée, et il lui est difficile de raisonner sur plus d'un ou deux objets dans une phrase.



Discussion supplémentaire



Il est important de comprendre que le comportement de GPT-3 peut changer radicalement lorsque les indices principaux changent. Tous les exemples ci-dessus sont fournis avec une seule invite par défaut, qui ne fournit aucun exemple de questions incorrectes ou d'opérations séquentielles.



Les performances de GPT-3 sur l'une des tâches spécifiques ci-dessus peuvent être améliorées en lui donnant des indices sur les endroits où des tâches similaires sont effectuées. Voici quelques exemples:





Jusqu'à présent, nous ne voyons que ce que GPT-3 est capable de sortir de la boîte. Une fois que les gens l'ont adapté à des fins spécifiques pendant un certain temps, nous pouvons voir des améliorations majeures. Si vous voulez mieux comprendre ce qui peut être réalisé en personnalisant les astuces, alors Gwern couvre parfaitement cela.



Conclusion



Nous avons certainement parcouru un long chemin. Le mieux dont les ordinateurs étaient capables avant l'avènement des réseaux de neurones était un dialogue comme celui-ci.



> Salut, je suis Eliza.



Q: Qui était le président des États-Unis en 1801?

R: Quelle réponse préférez-vous?



Q: Quel est le plus lourd, une souris ou un éléphant?

R: Allez, clarifiez votre point.



Dans certains domaines, GPT-3 donne des résultats impressionnants, tandis que dans d'autres, il est clairement en retard par rapport aux humains. J'espère qu'en comprenant mieux ses forces et ses faiblesses, les programmeurs pourront utiliser plus efficacement des modèles de langage moderne dans des produits réels.



Jusqu'à présent, l'API GPT-3 est en phase de test bêta fermé et vous devez faire la queue pour l'utiliser. Je recommande de s'inscrire et essayez-le quand vous en avez l'occasion.



All Articles