Comment nous avons appris à l'IA à comprendre les actualités

Nous voulons tous être conscients de ce qui se passe, alors nous passons une partie de notre temps à lire les informations, et maintenant de plus en plus d'informations ne proviennent pas de sites d'informations ou de journaux, mais d'une sorte de chaînes de télégramme. En conséquence, après un certain temps, il s'avère que vous êtes abonné à une douzaine (et peut-être des dizaines de chaînes) qui écrivent constamment quelque chose - en conséquence, soit un temps énorme est passé à "ne rien manquer". Mais si vous le regardez, la plupart d'entre eux écrivent sur une chose, mais différemment. L'idée est donc venue d'apprendre à l'IA à sélectionner les actualités qui comptent vraiment. Bien sûr, il existe différents TOP, comme Yandex.News ou quelque chose comme les résultats de la journée d'un média respecté, mais il y a des nuances partout. Dans cet article, je vais essayer de décrire ces nuances et ce que nous avons fait et ce que nous n'avons pas fait.





Nuances et sources

, –  , , , - –  , " ". , ., , –  , . –  , .





:





  • -,





  • , , - (-, , )





  • – , , 100 . 10 . ( ) –  . - . ,





100 , "" . , –  , , - , GQ, .. - , , - .





, , , , , .. , - . , . –  , ( )... - . , – , "" ( , , - ). , - , , .





:





  • " ", – 





  • "", – .. ""





  • "" – .. - ,





, , :





  • ( )





  • –  NLP NER –   ,





  • - ""





–  3 , : , ( ), – . , , - .





"" NLP

NLP, BERT, . . - . – , MVP :





  • . , NLP , –  , .. - , . , , .





  • , BERT – , , , .





, MVP BERT , 20 – ( ), , BERT - , .. , . , , , –  , ( ).





:





  • BERT – , , NER ,





  • Natasha – , NLP : , , API, . .. " " – 





  • Stanza –  NLP , ,





Spacy, , :













  • NLP , : NER, , ,





  • ( BERT)





- , , Spacy.





, , : Natasha-spacy, , . , - , , .





, –  , . –  : . – , , . , NER PER, LOC, ORG , "" "" , .. .





- , , .. CONLLU, . :





  • GSD





  • SynTagRus





  • Taiga





-. - NER. . , . , - . – « », , . , ( CONLLU), CONLLU. , , .





"" "" – . , regexp-, .













, "" "". - :





  • , ,





  • , .. , "" "" , " "





  • –  - , , , , 3- – 





. , , .





, " ". Facebook( themeduza, forbesrussia) , , ria.ru. –  - . ! - , , , . ~ .





, "" "" , , , , , .





, –  . " " , - .





–  , , . 4-5 , , , , - "".





Nombre moyen de messages par jour

4 GB RAM, 2 vCPUs 8% CPU, . , airflow, ( - airflow " " 16 GB RAM, 4 vCPUs 32%). , . , DAG-, –  .





Infrastructure

" X", . :





  • ( , , , )





  • , –  NER , "" , ( )





  "source": {
      "id": 1115468824,
      "username": "lentadnya",
      "title": " ",
      "participants": 47148
    },
    "text": "«, ,   »:       .    ,  ",
    "views": 405,
    "link": "https://t.me/lentadnya/16263",
    "interesting": 0.12,
    "reaction": {
      "enjoyment": 0.04400996118783951,
      "sadness": 0.0019097710028290749,
      "disgust": 0.8650462031364441,
      "anger": 0.08112426102161407,
      "fear": 0.00790974497795105
    },
    "entities": [
      "",
      " ",
      "",
      ""
    ],
    "tags": [
      "",
      " ",
      "",
      ""
    ]
      
      



, .





â„–1: "" , , . , –  3-4 , . .. , .. , . –  .





№2: NER – . , , . . - 100 (, ) NER . 85%. . , BERT "" , - , -.





â„–3: , , , , , . . - "" . , "", . , ( ), NER " ". , , , . "" , - " " –  . "" . , "" , , . .





Eh bien, quiconque a lu jusqu'à présent, j'espère que ce sera intéressant, mais à quoi ressemble notre top: https://t.me/mygenda .





Eh bien, comme le disent les blogueurs de mode: abonnez-vous, partagez des commentaires et posez des questions. J'espère que c'était intéressant.








All Articles