Les développements récents dans les modèles de langue pré-apprentissage ont conduit à des avancées significatives dans le traitement du langage naturel (PNL), la reproduction des modèles très efficaces tels que BERT , roberta , XLNet , ALBERT , T5, et beaucoup d' autres. Ces méthodes, qui ont des architectures différentes, sont néanmoins unies par l'idée d'utiliser de grandes quantités de données textuelles non étiquetées pour créer un modèle général de compréhension du langage naturel, qui est ensuite formé et affiné pour résoudre des problèmes appliqués spécifiques, tels que l'analyse des sentiments ou la construction de systèmes de questions-réponses.
Les méthodes de pré-formation existantes se répartissent principalement en deux catégories:
- Modèles de langage (LM) tels que GPT , qui traitent le texte dans l'entrée de gauche à droite, prédisant le mot suivant dans un contexte préalablement défini;
- Modèles de langage masqués (MLM), tels que BERT, RoBERTa et ALBERT, qui tentent de prédire les mots masqués du texte source.
L'avantage du MLM est qu'il fonctionne de manière bidirectionnelle, c'est-à-dire Ils "voient" le texte de chaque côté du jeton prédit, contrairement aux LM, qui ne font face qu'à une seule direction. Cependant, MLM (et des modèles comme XLNet) présentent également des inconvénients découlant de leur tâche de pré-formation: au lieu de prédire chaque mot de la séquence d'entrée, ils ne prédisent qu'une petite partie masquée - seulement environ 15%, ce qui réduit la quantité d'informations reçues d'une phrase.
. () . : (, GPT), . : (, BERT), , .
«ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators» , BERT’, . ELECTRA – , (Efficiently Learning an Encoder that Classifies Token Replacements Accurately) — , , . , ELECTRA , RoBERTa XLNet GLUE, , , ¼ , - SQuAD. ELECTRA , : 1 GPU , (accuracy), GPT, 30 . ELECTRA TensorFlow .
ELECTRA – (replaced token detection, RTD), ( MLM) ( LM). - (generative adversarial network, GAN), ELECTRA «» «» . , , «[MASK]» ( BERT’), RTD , . , , «cooked» «ate». , , . (.. ) , , . , , (15% BERT). RTD , MLM – ELECTRA «» , , .. . , RTD , .. , .
.
, . , , ELECTRA ( BERT- ), . , , , GAN, , , - GAN . . , ( ELECTRA) NLP . .
. MLM , ELECTRA.
ELECTRA c NLP , , , RoBERTa XLNet 25% , .
x , ( FLOPs), y – GLUE. ELECTRA , NLP . , GLUE, T5, , .. ( 10 , RoBERTa).
, ELECTRA-Small, , GPU 4 . , , TPU , ELECTRA-Small GPT, 1/30 .
, , ELECTRA , ELECTRA-Large ( RoBERTa 10% T5). - SQuAD 2.0 (. ) RoBERTa, XLNet ALBERT GLUE. T5-11b GLUE, ELECTRA 30 10% , T5.
ELECTRA-Large SQuAD 2.0 ( ).
ELECTRA
Le code de la pré-formation et du réglage fin d'ELECTRA sur les tâches PNL appliquées, telles que la classification de texte, les problèmes de questions-réponses et le balisage de séquence, a été publié en libre accès . Le code prend en charge la formation rapide d'un petit modèle ELECTRA sur un seul GPU. Les poids des modèles pré-entraînés tels que ELECTRA-Large, ELECTRA-Base et ELECTRA-Small sont également affichés. Alors qu'ELECTRA n'est disponible que pour l'anglais, à l'avenir, les développeurs prévoient de pré-former le modèle dans d'autres langues.
Auteurs
- Auteurs originaux - Kevin Clark, Thang Luong
- Traduction - Ekaterina Smirnova
- Montage et mise en page - Sergey Shkarin