Pustobrёkh GPT-2: Ă©dition russe

image


AprĂšs avoir plongĂ© dans le sujet de DL NLP, je suis tombĂ© sur un rĂ©fĂ©rentiel intĂ©ressant sur Internet . Ce n'est pas assez - GPT-2 russe ! Eh bien, c'est Russophone. Et pas un petit 117M, mais plutĂŽt un 1250M, ce qui est dĂ©jĂ  assez sĂ©rieux. L'auteur a beaucoup travaillĂ© pour adapter le modĂšle original et prĂ©parer le corpus pour la formation. Et la formation elle-mĂȘme, je suppose, a pris beaucoup de temps et de puissance. En gĂ©nĂ©ral, respectez le camarade l4rz ! Je prĂ©vois de suivre ses traces et de former le systĂšme sur mon cas (que je suis actuellement en train de prĂ©parer) - heureusement, l'auteur a laissĂ© des instructions assez dĂ©taillĂ©es sur la façon d'aborder une tĂąche d'une telle ampleur ... ;)



En attendant, uniquement pour le plaisir, je propose au public des expériences avec le systÚme, basées sur le post sur le refroidisseur GPT-3 (bien que l'auteur, évidemment, ne considÚre pas GPT-3 comme quelque chose d'exceptionnel). D'une part, le systÚme présenté ici est beaucoup plus simple que GPT-3, d'autre part, il s'agit toujours d'un modÚle en langue russe formé! Je trouve ça drÎle.



Avertissement. Les rĂ©sultats sont largement dĂ©terminĂ©s par le corpus sur lequel le rĂ©seau a appris. Voici ce que l'auteur en dit: j'ai grattĂ© quelques sites de presse russes , analysĂ© du HTML avec beautifulsoup4 et sauvegardĂ© des textes analysĂ©s ainsi que des mĂ©tadonnĂ©es (en-tĂȘtes, TL; DR, horodatages) pour un tri et un post-traitement plus poussĂ©s dans les PKL ... Afin de pousser les choses De plus, l'ensemble de donnĂ©es 4 Go (415 millions de jetons) a Ă©tĂ© augmentĂ© avec 3 Go de fanfics filtrĂ©s , devenant un 7 Go (862 millions de jetons).



La technique expĂ©rimentale est simple: j'exĂ©cute le rĂ©seau trois fois avec la mĂȘme entrĂ©e. La sortie rĂ©seau est marquĂ©e en gras... Je n'ai fait aucune modification, sauf pour des modifications purement cosmĂ©tiques - comme des espaces manquants (qui ont Ă©tĂ© omis Ă  cause de mon interfĂ©rence dans le code *). Dans l'ensemble, les expĂ©riences reprennent celles dĂ©crites dans l'article sur GPT-3, et j'ai dĂ©cidĂ© de ne pas les commenter en aucune façon ...;)



Expérience n ° 1

. >>>

Vous vous versez un verre de jus de canneberge, mais vous y ajoutez par la suite une cuillÚre à café de jus de raisin. Il a l'air bien. Vous essayez de le renifler, mais vous avez un mauvais rhume, donc vous ne sentez pas. Vous avez trÚs soif. Par conséquent, vous buvez du café avec du miel et du sucre.
>>> nouveau

Vous vous versez un verre de jus de canneberge, mais vous y ajoutez par la suite une cuillÚre à café de jus de raisin. Il a l'air bien. Vous essayez de le renifler, mais vous avez un mauvais rhume, donc vous ne sentez pas. Vous avez trÚs soif. Alors vous vous servez à nouveau du café. Vous vous sentez nauséeux. Il n'y a rien de mal à cela, vous ne savez pas comment le boire de toute façon. Vous ressentez quelque chose de trÚs mauvais, mais personne ne fait attention à vous.
>>> nouveau

Vous vous versez un verre de jus de canneberge, mais vous y ajoutez par la suite une cuillÚre à café de jus de raisin. Il a l'air bien. Vous essayez de le renifler, mais vous avez un mauvais rhume, donc vous ne sentez pas. Vous avez trÚs soif. Alors tu continues à manger si tu veux, mais tu ne sais pas à quoi ça ressemble.


Expérience n ° 2

. >>>

Vous avez organisĂ© une petite fĂȘte. Vous souhaitez servir le dĂźner dans le salon. La table de la salle Ă  manger est plus large que la porte et vous devrez boire un verre de lait chaud pour le dĂ©placer dans le salon .
>>> nouveau

Vous avez organisĂ© une petite fĂȘte. Vous souhaitez servir le dĂźner dans le salon. La table de la salle Ă  manger est plus large que la porte et fait quelques pas pour entrer dans le salon .
>>> nouveau

Vous avez organisĂ© une petite fĂȘte. Vous souhaitez servir le dĂźner dans le salon. La table de la salle Ă  manger est plus large que la porte et il faut beaucoup de travail pour la dĂ©placer dans le salon .


Expérience n ° 3

. >>>

Vous ĂȘtes un avocat de la dĂ©fense et vous devez vous prĂ©senter au tribunal aujourd'hui. En vous habillant le matin, vous constatez que le pantalon de votre costume est trĂšs sale. Cependant, vos malles sont propres et trĂšs Ă©lĂ©gantes. Ce sont des maillots de bain haut de gamme de France qu'Isabelle vous a offerts pour votre anniversaire. DĂ©cidez-vous quoi porter pour le procĂšs ?

Oh oui*
>>> nouveau

Vous ĂȘtes un avocat de la dĂ©fense et vous devez vous prĂ©senter au tribunal aujourd'hui. En vous habillant le matin, vous constatez que le pantalon de votre costume est trĂšs sale. Cependant, vos malles sont propres et trĂšs Ă©lĂ©gantes. Ce sont des maillots de bain haut de gamme de France qu'Isabelle vous a offerts pour votre anniversaire. Vous dĂ©cidez quoi porter pour le procĂšs . Si vous n'aimez pas quelque chose, emportez avec vous les vĂȘtements de votre garde-robe.
>>> nouveau

Vous ĂȘtes un avocat de la dĂ©fense et vous devez vous prĂ©senter au tribunal aujourd'hui. En vous habillant le matin, vous constatez que le pantalon de votre costume est trĂšs sale. Cependant, votre maillot de bain est propre et trĂšs Ă©lĂ©gant. Ce sont des slips de bain haut de gamme de France qu'Isabelle vous a offerts pour votre anniversaire. DĂ©cidez-vous quoi porter pour le procĂšs ?

- J'ai beaucoup de questions pour un avocat.


Expérience n ° 4

. >>>

Hier, j'ai laissĂ© mes vĂȘtements au pressing, et aujourd'hui je dois encore les rĂ©cupĂ©rer. OĂč sont mes vĂȘtements?

- Idiot, j'ai besoin de le récupérer, pas tout faire comme prévu.
>>> nouveau

Hier, j'ai laissĂ© mes vĂȘtements au pressing, et aujourd'hui je dois encore les rĂ©cupĂ©rer. OĂč sont mes vĂȘtements?

- Non, je ne sais pas ce que sont ces choses, mais je peux toujours en prendre une, et ce n'est pas toujours agréable.
>>> nouveau

Hier, j'ai laissĂ© mes vĂȘtements dans le pressing, et aujourd'hui je dois encore les rĂ©cupĂ©rer. OĂč sont mes vĂȘtements?

- D'accord. Je ne vais pas le déranger, ai-je répondu.



Expérience n ° 5

. >>>

Janet et Penny sont allées au magasin acheter un cadeau pour Jack. Janet a dit: "Je vais acheter un haut à Jack." «N'achetez pas de haut à Jack», dit Penny. «Il a un haut. Il me l'obtiendra quand nous choisirons, et si vous n'achetez pas Jack, vous vendrez Jack.
>>> nouveau

Janet et Penny sont allées au magasin acheter un cadeau pour Jack. Janet a dit: "Je vais acheter un haut à Jack." «N'achetez pas de haut à Jack», dit Penny. «Il a un haut. Il obtiendra son morceau de Jack.
>>> nouveau

Janet et Penny sont allĂ©es au magasin acheter un cadeau pour Jack. Janet a dit: "Je vais acheter un haut Ă  Jack." «N'achetez pas de haut Ă  Jack», dit Penny. «Il a un haut. Il recevra . Je vais le prendre. Il est toujours lĂ . Et je ne vendrai pas. Seulement contrairement Ă  Jack. Il ne s'intĂ©resse pas Ă  ce qui ne lui a pas plu tant. Il n'achĂštera rien d'autre que de s'acheter lui-mĂȘme.


Expérience n ° 6

. >>>

À la fĂȘte, je me suis versĂ© un verre de limonade, mais c'Ă©tait trop acide, alors j'ai ajoutĂ© un peu de sucre. Il n'y avait pas de cuillĂšre sous la main, alors j'ai remuĂ© la boisson avec une cigarette. Mais cela s'est avĂ©rĂ© ĂȘtre une trĂšs mauvaise idĂ©e, car je buvais depuis longtemps. Wow, quel goĂ»t merveilleux!
>>> nouveau

À la fĂȘte, je me suis versĂ© un verre de limonade, mais c'Ă©tait trop acide, alors j'ai ajoutĂ© un peu de sucre. Il n'y avait pas de cuillĂšre sous la main, alors j'ai remuĂ© la boisson avec une cigarette. Mais cela s'est avĂ©rĂ© ĂȘtre une trĂšs mauvaise idĂ©e, car la limonade m'empĂȘchait de boire.
>>> nouveau

À la fĂȘte, je me suis versĂ© un verre de limonade, mais c'Ă©tait trop acide, alors j'ai ajoutĂ© un peu de sucre. Il n'y avait pas de cuillĂšre sous la main, alors j'ai remuĂ© la boisson avec une cigarette. Mais cela s'est avĂ©rĂ© ĂȘtre une trĂšs mauvaise idĂ©e car il faisait trop chaud, alors j'ai commencĂ© Ă  boire dans ma gorge.


Expérience n ° 7

. >>>

, . – .



1. , . . , , . . .



) .

) .



: 2. )



* Une petite digression lyrique. Je n'aimais pas GPT-2 avec une gĂ©nĂ©ration de texte illimitĂ©e (une demi-page Ă  la fois), comme c'Ă©tait le cas dans la source. Et j'ai poignardĂ© la sortie au minimum , mais j'ai rendu possible la poursuite rĂ©cursive (lorsque la sortie prĂ©cĂ©dente est introduite dans l'entrĂ©e). Ainsi, je triche un peu , car Je dĂ©cide moi-mĂȘme quand vous pouvez / devez vous arrĂȘter. Dans ce cas, le rĂ©seau a vraiment fait ressortir un rĂ©sultat qui peut ĂȘtre interprĂ©tĂ© avec un peu d'Ă©tirement comme une rĂ©ponse (bien que paradoxale), mais si nous continuons la conclusion, alors ...
Bonne réponse:

2. A) Vous n'avez PAS besoin de connaĂźtre le reste.

3. B) DĂ©pendance.

4. Sur quelle base voulez-vous le boire?


>>> nouveau


 La



bonne réponse: ce sont des substances toxiques.
>>> nouveau

... La



bonne rĂ©ponse est: "Tout est prĂȘt."


Pour sim, c'est tout ...



PS Si la communautĂ© vous dit oĂč vous pouvez placer un modĂšle 5Gb (afin qu'il soit disponible avec quelque chose comme wget ) - j'ajouterai un lien vers le cahier Colab Ă  l'article et Ă  toute personne qui veut pouvoir conduire le systĂšme en direct ... ) Et puis mon "hĂ©bergement" Ă  la maison, j'en ai peur, ne rĂ©sistera pas Ă  l'effet habr. En attendant, je peux essayer ce qui se passe avec votre texte en entrĂ©e, si quelqu'un est intĂ©ressĂ©!



MISE À JOUR: CommunautĂ© reprĂ©sentĂ©e parGrigorova rĂ©pondu, alors voici le bloc-notes promis ! Vous pouvez maintenant expĂ©rimenter vous-mĂȘme, comparer avec l' original (lien de l'articleDesertFlow RĂ©seau de neurones GPT-2 d'OpenAI. DĂ©marrage rapide ) et peut-ĂȘtre tirer quelques conclusions. ;) Par exemple: la langue est-elle importante lors de l'enseignement du modĂšle linguistique?



COMMENTAIRE DE L'AUTEUR : Salut,



oui, bien sûr, cela ne me dérange pas - sinon je ne téléchargerais pas le modÚle ici.



>>> La langue est-elle importante lors de l'enseignement d'un modĂšle de langage?



Bien sĂ»r, j'ai remarquĂ© que les modĂšles avec un petit nombre de paramĂštres fonctionnent moins bien avec la langue russe. Je suppose que cela est dĂ» Ă  la sĂ©mantique plus complexe (moins formalisĂ©e) du russe par rapport Ă  l'anglais; J'ai Ă©crit Ă  ce sujet dans mon Ă©crit. Aussi, la façon de transmettre les dialogues, acceptĂ©e en russe, lorsque chaque rĂ©plique commence sur une nouvelle ligne et est prĂ©cĂ©dĂ©e d'un tiret, sans prĂ©ciser Ă  qui appartiennent ces rĂ©pliques, n'aide pas le modĂšle Ă  identifier correctement la structure du dialogue (et en plus rend difficile l'entraĂźnement, car le modĂšle apprend Ă  structurer des textes comme façon - le mĂȘme effet est observĂ© quand un balisage fuit dans les donnĂ©es d'apprentissage).



Un autre point que j'ai manqué (cela m'a semblé évident) - si vous voulez affiner ce modÚle, vous devez utiliser ce dictionnaire de phrases (sp. *) Fourni avec le modÚle.



En outre, lors de la formation de 1250 millions, principalement des nouvelles, la presse et plus tard des fanfictions ont été utilisées, ce qui se reflÚte dans la nature des résultats.



All Articles