GPT-3 en images: un aperçu

Le monde technologique a adopté un nouveau battage médiatique - GPT-3.



Les énormes modèles de langage (comme GPT-3) nous surprennent de plus en plus par leurs capacités. Et si la confiance des entreprises en eux ne suffit pas pour les présenter à leurs clients, ces modèles démontrent les prémices d'une intelligence qui va accélérer le développement de l'automatisation et les capacités des systèmes informatiques «intelligents». Supprimons l'aura de mystère de GPT-3 et découvrons comment il apprend et comment cela fonctionne.



Le modèle de langage formé génère du texte. Nous pouvons également envoyer du texte à l'entrée du modèle et voir comment la sortie change. Ce dernier est généré à partir de ce que le modèle a "appris" pendant la période de formation en analysant de grandes quantités de texte.





L'apprentissage est le processus de transfert d'une grande quantité de texte vers un modèle. Pour GPT-3, ce processus est terminé et toutes les expériences que vous pouvez voir s'exécutent sur le modèle déjà entraîné. Il a été estimé que la formation prendrait 355 années GPU (355 ans de formation sur une seule carte graphique) et coûterait 4,6 millions de dollars.



02-gpt3-training-language-model



Un ensemble de données de 300 milliards de jetons de texte a été utilisé pour générer des exemples pour l'entraînement du modèle. Par exemple, voici à quoi ressemblent trois exemples de formation, dérivés d'une phrase ci-dessus.



, , .



gpt3-formation-exemples-fenĂŞtre-coulissante



( ) .



. , .



.



03-gpt3-training-step-back-prop



.



GPT-3 ( , – ).



04-gpt3-generate-tokens-output



, — GPT-3, , ( ). – , .



GPT-3 . , , 175 ( ). .



, , .



gpt3-paramètres-poids



– , – , .



« Youtube» – 175- .



, , .



GPT-3 2048 – « », 2048 , .



05-gpt3-generate-output-context-window



. «robotics» «A»?



:



  1. ( ).
  2. .
  3. .


06-gpt3-intégration



GPT-3 96 .



? «» « » (deep learning).



1.8 . «». :



07-blocs-transformateurs-de-traitement-gpt3



, , GTP-2 .



GPT-3 (dense) (sparse) (self-attention).



«Okay human» GPT-3. , . : , . .



08-gpt3-tokens-transformateurs-blocs



React ( ), , => . React , , .



On peut supposer que les exemples et descriptions initiaux ont été ajoutés à l'entrée du modèle, avec des jetons spéciaux qui séparent les exemples du résultat.



09-gpt3-generation-react-code-exemple



La façon dont cela fonctionne est impressionnante. Il vous suffit d'attendre la fin de la mise au point de GPT-3. Et les possibilités seront encore plus étonnantes.



L'ajustement met simplement à jour les pondérations du modèle afin d'améliorer ses performances pour une tâche spécifique.



10-gpt3-réglage fin



Auteurs






All Articles