Analyse des sentiments dans les textes en russe, partie 1: introduction

image

L'analyse des sentiments est devenue un outil puissant pour le traitement à grande échelle des opinions exprimées dans n'importe quelle source de texte. L'application pratique de cet outil en anglais est assez développée, ce qui ne peut être dit du russe. Dans cette série d'articles, nous examinerons comment et à quelles fins les approches d'analyse des sentiments ont été utilisées pour les textes en russe, quels résultats ont été obtenus, quels problèmes ont surgi, et parlerons également un peu des directions prometteuses. Contrairement aux travaux précédents, je me suis concentré sur les applications appliquées, et non sur les approches elles-mêmes et leur qualité de classification. La première partie est introductive. Nous examinerons ce qu'est «l'analyse des sentiments», ce qu'elle est et comment elle a été utilisée au cours des 8 dernières années pour analyser des textes en russe. Dans la deuxième partieExaminons de plus près chacune des 32 études majeures que j'ai trouvées. Dans la troisième et dernière partie (encore une fois, la semaine prochaine), nous parlerons des difficultés communes rencontrées par les chercheurs, ainsi que des orientations prometteuses pour l'avenir.



NB: l'article a été écrit pour une revue scientifique, il y aura donc de nombreux liens vers des sources.


1. Introduction



L'analyse des sentiments est une classe de méthodes d'analyse de contenu en linguistique computationnelle, dont la tâche principale est de classer le texte en fonction de son humeur. En utilisant l'analyse des sentiments, les chercheurs peuvent généraliser le sentiment des textes et tirer des conclusions sur différents sujets. Par exemple, cette analyse permet de prédire le marché des valeurs mobilières [1], de calculer l'indice de bien-être subjectif [2], de prédire les résultats des élections [3], d'évaluer la réaction à certains événements ou actualités [4]. L'analyse des sentiments pour l'anglais est déjà bien développée [5] - [7], tandis que d'autres langues, en particulier le russe, ont reçu jusqu'à présent beaucoup moins d'attention. Selon une étude d'Omnibus GFK [9], 75,4 Russes (90 millions de personnes) de plus de 16 ans utilisent Internet. Il existe des diasporas russophones sur tous les continents, mais la plupart vivent dans la CEI,principalement en Russie et en Ukraine. Selon une étude de W3Techs, le russe est l'une des principales langues en termes de prévalence sur Internet. En avril 2020, 8,6% des 10 millions de sites Web les plus populaires au monde étaient en russe. Par conséquent, les textes en russe sont une source importante de données pour l'analyse automatique, en particulier l'analyse des sentiments.



Une seule étude [10] réalisée par Viksna et Jekabsons est consacrée à l'analyse du sentiment des textes en russe. Plusieurs autres [11] - [14] le mentionnent dans le cadre d'une comparaison générale avec les approches existantes. D'autres études sont consacrées à des aspects spécifiques de l'analyse du sentiment des textes en russe. Par exemple, évaluer les meilleures approches [15] - [18], comparer les architectures de réseaux neuronaux pour l'analyse des sentiments [19], [20], comparer des collections de vocabulaire russe ouvertes pour évaluer les sentiments [21]. Cependant, toutes ces études se sont concentrées sur les approches elles-mêmes et leur rapidité de classification, plutôt que sur l'application pratique et les résultats d'analyse. Je n'ai considéré que les travaux, au cours desquels les résultats de l'analyse ont été obtenus à partir de données réelles. Et je n'ai pas considéré ceux qui sont consacrés uniquement à la formation des classificateurs.Cet article est une traduction condensée d'un article publié dans IEEE Access. Si vous voulez plus de détails, ou simplement lire en anglais - vousici .



La deuxième section décrit brièvement la tâche de l'analyse des sentiments et les approches actuelles, si vous êtes déjà familier avec cela, n'hésitez pas à sauter. La troisième section est l'une des principales, elle examine les utilisations de l'analyse des sentiments pour les textes en russe, elle décrit également 32 études principales, leurs idées et leurs faiblesses. La quatrième section est consacrée aux défis actuels et la cinquième aux domaines prometteurs.



2. En bref sur les méthodes d'analyse des sentiments



L'analyse des sentiments est une classe de méthodes d'analyse de contenu en linguistique computationnelle, dont la tâche principale est de classer le texte en fonction de son humeur. Dans les cas simples, le problème de l'analyse des sentiments est réduit à une classification binaire des textes en positif et en négatif. Dans certains cas, ajoutez une autre classe de textes neutres. Des approches plus avancées tentent d'identifier les états émotionnels associés à un texte, tels que la peur, la colère, la tristesse ou le bonheur. Dans un certain nombre d'approches, les textes se voient attribuer des valeurs d'une échelle prédéterminée: par exemple, de -2 pour négatif à 2 pour positif; ainsi, l'analyse est réduite à un problème de régression. L'analyse des sentiments basée sur les aspects est un sous-ensemble de l'analyse des sentiments, dont la tâche est de déterminer l'attitude envers un aspect spécifique du sujet principal de la discussion.Toutes les approches d'analyse des sentiments peuvent être divisées en trois groupes.



La première concerne les approches fondées sur des règles(basé sur des règles). Le plus souvent, ils utilisent des règles de classification définies manuellement et des vocabulaires marqués émotionnellement. Ces règles calculent généralement la classe de texte [22] - [24] en fonction des mots clés émotionnels et de leur combinaison avec d'autres mots clés. Bien qu'elles soient extrêmement efficaces dans le domaine, les méthodes fondées sur des règles sont peu généralisables. Leur création prend également beaucoup de temps, en particulier lorsqu'il n'y a pas d'accès à un dictionnaire de sentiments approprié. Cette dernière est particulièrement caractéristique de la langue russe, car elle ne contient pas autant de sources qu'en anglais, en particulier dans le domaine de l'analyse des sentiments. Les plus grands dictionnaires de sentiments en russe sont RuSentiLex [25] et LINIS Crowd [26]. Mais ils ne contiennent que des informations sur la tonalité du positif au négatif, sans les caractéristiques des émotions. De cette façon,il n'y a pas d'alternative aux collections de langue anglaise aussi puissantes avec des caractéristiques émotionnelles étendues que SenticNet [27], SentiWordNet [28] et SentiWords [29].



Deuxième groupe - Approches d'apprentissage automatique... Ils utilisent l'extraction automatique de caractéristiques du texte et appliquent des algorithmes d'apprentissage automatique. Les algorithmes classiques de classification de la polarité sont Naive Bayes Classifier [30], Decision Tree [31], Logistic Regression [32] et Support Vector Machine [33]. Ces dernières années, l'attention des chercheurs a été attirée par les méthodes d'apprentissage en profondeur, qui sont nettement supérieures aux méthodes traditionnelles d'analyse des sentiments [34]. Ceci est confirmé par la chronologie du concours SemEval, au cours duquel les principales solutions ont utilisé avec succès des réseaux de neurones convolutifs (CNN) et récurrents (RNN) [35] - [37], ainsi que des méthodes d'apprentissage par transfert [38].L'une des principales caractéristiques des systèmes d'apprentissage automatique est l'extraction automatique des fonctionnalités à partir du texte. Les approches simples pour représenter du texte dans un espace vectoriel utilisent généralement le modèle du sac de mots. Dans des systèmes plus complexes pour générer des embeddings de mots, des modèles de sémantique distributive sont utilisés, par exemple, Word2Vec [39], GloVe [40] ou FastText [41]. Il existe également des algorithmes pour générer des incorporations au niveau de la phrase ou du paragraphe, qui sont conçus pour transférer l'apprentissage entre différentes tâches de traitement du langage naturel. Ces algorithmes incluent ELMo [42], Universal Sentence Encoder (USE) [27], Bidirectional Encoder Representations from Transformers (BERT) [43], Enhanced Language Representation with Informative Entities (ERNIE) [44] et XLNet [45].L'un de leurs principaux inconvénients en termes de génération de plongements est le besoin de grandes quantités de texte pour la formation. Cependant, cela est vrai pour toutes les méthodes d'apprentissage automatique, car tous les algorithmes d'apprentissage supervisé nécessitent des ensembles de données étiquetés pour s'entraîner.



Troisième groupe - approches hybrides... Ils combinent les approches des deux types précédents. Par exemple, Kumar et ses collègues ont développé un cadre hybride pour l'analyse des sentiments en persan qui combine des règles linguistiques, des réseaux de neurones convolutifs et des LSTM pour la classification des sentiments [46]. Meskele et Frasincar ont proposé un modèle d'analyse d'aspect hybride ALDONAr qui combine l'ontologie des sentiments pour capturer les informations de sentiment, BERT pour les embeddings de mots et deux couches CNN pour la classification étendue des sentiments [47]. Le modèle a montré une précision de 83,8% sur l'ensemble de données SenEval 2015 Task 12 [48] et de 87,1% sur l'ensemble de données SemEval 2016 Task 5 [49]. Les modèles de langage sont souvent utilisés dans les algorithmes hybrides, tout comme les solutions basées sur des règles [50] - [52]. Un côté,une combinaison de méthodes basées sur des règles et d'apprentissage automatique produit généralement des résultats plus précis. En revanche, les approches hybrides héritent des difficultés et des limites de leurs algorithmes constitutifs.



3.



Pour trouver des publications clés sur l'analyse des sentiments appliqués des textes en russe, j'ai recherché des bases de données scientifiques qui couvrent les principales revues et conférences d'informatique: IEEE Xplore, ACM Digital Library, ScienceDirect, SAGE Journals Online et Springer Link . Pour élargir la gamme de sources, en plus des articles en anglais, j'ai également étudié les articles en russe du Russian Science Citation Index (RSCI). La recherche a été effectuée par requête (('' SENTIMENT '' OU '' POLARITY '') ET ('' ANALYSIS '' OU '' DETECTION '' OU '' CLASSIFICATION '' OU '' OPINION MINING '' OU '' TOPIC MODELING ' ') ET (' 'RUSSE' 'ou' 'RUSSIE' ')).La plupart des articles pertinents se trouvent dans ScienceDirect , Springer Link et RSCI... J'ai également revu les publications préliminaires des travaux d'éminents chercheurs afin de ne pas passer à côté des nouveautés. En conséquence, plusieurs milliers d'articles potentiellement pertinents ont été collectés, sans compter la littérature grise et les pré-impressions. Les travaux les plus récents et les plus cités ont été préférés. Ensuite, j'ai analysé les titres, les mots-clés et les introductions du reste des publications pour affiner ma sélection de sources. Seuls les articles évalués par des pairs ont été recherchés pour améliorer la qualité de l'échantillon. J'ai exclu les sources grises (par exemple, les travaux en cours, les éditoriaux, toute thèse), ainsi que les sources inappropriées pour mes recherches (qui n'appliquent pas de modèles de classification des sentiments). Ensuite, pour plus de détails dans cet article, j'ai sélectionné manuellement 32 publications majeures.qui décrit au moins une approche pratique de l'analyse des sentiments dans les textes en russe.



4.



image

. 1. .



J'ai décidé de catégoriser les approches par sources de données, car dans ce cas, les approches au sein des catégories auront des objectifs, des défis et des limites similaires. Bien que certaines catégories ne contiennent qu'une seule étude, j'ai décidé de les mettre en évidence en raison des différences fondamentales dans les approches utilisées, les résultats et les difficultés. N'oubliez pas non plus que la langue russe a été moins étudiée en termes d'analyse des sentiments, le nombre d'œuvres est donc limité. En figue. 1 présente un ensemble de catégories. La plupart des approches reposaient sur l'analyse des données des médias sociaux pour évaluer les attitudes des utilisateurs envers différents sujets. Par exemple, les attitudes et opinions sur le conflit en Ukraine et les problèmes liés aux migrants. Au cours de la dernière décennie, de nombreux réseaux sociaux sont devenus des outils modernes d'engagement social [53],par conséquent, ils peuvent être perçus comme des sources ouvertes et largement disponibles de l'opinion publique, ou du moins comme une sorte de reflet de celle-ci [54]. Les CGU des réseaux sociaux, en tant que source d'information la plus courante, ont été examinés selon trois critères: les attitudes envers différents sujets; indices d'humeur sociale; caractéristiques de l'interaction de l'utilisateur avec des données exprimant différentes humeurs. Les attitudes à l'égard de différents sujets ont été étudiées à partir de différents points de vue. Par exemple, les attitudes envers les migrants et les groupes ethniques (par exemple, [55]), les expressions de sentiments pendant la crise ukrainienne (par exemple, [56]), la mesure du niveau de tension sociale (par exemple, [57]), ou en se concentrant sur le discours sur certains questions (par exemple, [58]). En règle générale, ces approches utilisent une combinaison de modélisation de sujets et d'analyse des sentiments,pour mettre en évidence les thèmes et les humeurs associées. Dans une grande partie de la recherche (par exemple, [59] - [67]), où la modélisation thématique est appliquée sans autre classification de polarité (et donc non couverte dans cet article), l'analyse des sentiments est appelée une étape de développement supplémentaire. Dans une autre partie de la recherche (par exemple, [68]) des indices d'attitude sociale sont calculés à partir d'opinions exprimées dans les réseaux sociaux afin d'obtenir une alternative à l'indice traditionnel de bien-être subjectif. Enfin, une autre recherche (par exemple, [69]) examine les modèles d'interaction de l'utilisateur avec le contenu en fonction de sa couleur émotionnelle. L'une des principales difficultés de ces études est l'extraction d'échantillons de données représentatifs et la sélection de textes pertinents pour une analyse plus approfondie.Dans une grande partie de la recherche (par exemple, [59] - [67]) dans laquelle la modélisation thématique est appliquée sans autre classification de la polarité (et par conséquent, ils ne sont pas considérés dans cet article), l'analyse des sentiments est appelée une étape de développement supplémentaire. Dans une autre partie de la recherche (par exemple, [68]) des indices d'attitude sociale sont calculés à partir d'opinions exprimées dans les réseaux sociaux afin d'obtenir une alternative à l'indice traditionnel de bien-être subjectif. Enfin, une autre recherche (par exemple, [69]) examine les modèles d'interaction de l'utilisateur avec le contenu en fonction de sa couleur émotionnelle. L'une des principales difficultés de ces études est l'extraction d'échantillons de données représentatifs et la sélection de textes pertinents pour une analyse plus approfondie.Dans une grande partie de la recherche (par exemple, [59] - [67]), où la modélisation thématique est appliquée sans autre classification de polarité (et donc non couverte dans cet article), l'analyse des sentiments est appelée une étape de développement supplémentaire. Dans une autre partie de la recherche (par exemple, [68]) des indices d'attitude sociale sont calculés à partir d'opinions exprimées dans les réseaux sociaux afin d'obtenir une alternative à l'indice traditionnel de bien-être subjectif. Enfin, une autre recherche (par exemple, [69]) examine les modèles d'interaction de l'utilisateur avec le contenu en fonction de sa couleur émotionnelle. L'une des principales difficultés de ces études est l'extraction d'échantillons de données représentatifs et la sélection de textes pertinents pour une analyse plus approfondie.dans laquelle la modélisation de sujet est appliquée sans classification supplémentaire de la polarité (et par conséquent, elles ne sont pas couvertes dans cet article), l'analyse des sentiments est appelée étape de développement supplémentaire. Dans une autre partie de la recherche (par exemple, [68]), les indices d'attitude sociale sont calculés sur la base des opinions exprimées dans les réseaux sociaux afin d'obtenir une alternative à l'indice de bien-être subjectif traditionnel. Enfin, une autre recherche (par exemple, [69]) examine les modèles d'interaction de l'utilisateur avec le contenu en fonction de sa couleur émotionnelle. L'une des principales difficultés de ces études est l'extraction d'échantillons de données représentatifs et la sélection de textes pertinents pour une analyse ultérieure.dans laquelle la modélisation thématique est appliquée sans classification supplémentaire de la polarité (et par conséquent, elles ne sont pas couvertes dans cet article), l'analyse des sentiments est appelée une étape de développement supplémentaire. Dans une autre partie de la recherche (par exemple, [68]) des indices d'attitude sociale sont calculés à partir d'opinions exprimées dans les réseaux sociaux afin d'obtenir une alternative à l'indice traditionnel de bien-être subjectif. Enfin, une autre recherche (par exemple, [69]) examine les modèles d'interaction de l'utilisateur avec le contenu en fonction de sa couleur émotionnelle. L'une des principales difficultés de ces études est l'extraction d'échantillons de données représentatifs et la sélection des textes pertinents pour une analyse ultérieure.



La deuxième source d'information la plus courante est l'examen des produits et services. Ils ont été analysés en fonction des caractéristiques des examinateurs eux-mêmes (par exemple, [70]), des caractéristiques des produits et services (par exemple, [71]) et des caractéristiques des vendeurs (par exemple, [72]). Contrairement à l'analyse des données générées par les utilisateurs à partir des réseaux sociaux, il n'y a aucune difficulté à accéder aux anciennes données. Les sites dédiés aux avis permettent souvent aux utilisateurs d'évaluer les notes en plus du texte de l'avis, il n'est donc pas nécessaire formellement de créer un modèle de classification d'humeur, car nous connaissons déjà les classes de notation. Cependant, dans certaines études, les modèles de classification des sentiments sont utilisés uniquement pour l'intérêt académique. Étant donné que les données des utilisateurs des réseaux sociaux et les avis des utilisateurs reflètent souvent des points de vue subjectifs,l'analyse de ces données est différente de l'analyse des actualités. En règle générale, les journalistes essaient d'éviter les jugements et les préjugés, le doute et l'ambiguïté, car l'objectivité est au cœur de leur profession. ou du moins la neutralité [73]. Par conséquent, les journalistes n'utilisent souvent pas de mots liés à un vocabulaire positif ou négatif, mais recourent à d'autres moyens d'exprimer leur opinion [74].



La troisième source principale était les informations des médias, qui ont été analysées selon deux critères: le sentiment (par exemple, [75]) et la formation de prévisions économiques et commerciales basées sur le sentiment de l'actualité (par exemple, [76]). Contrairement à l'analyse des données générées par les utilisateurs à partir des réseaux sociaux, il n'y a pas de difficulté à accéder aux anciennes données, car les médias n'en restreignent généralement pas l'accès. Cependant, les auteurs de certaines études ont tenté de déterminer l'attitude du public à l'égard de sujets spécifiques, ce qui, à mon avis, demande à être approfondi. Bien entendu, les médias peuvent être considérés comme le reflet de l'opinion publique. Mais dans certains cas, la politique éditoriale peut avoir influencé la soumission, de sorte que les nouvelles ne reflètent pas toujours l'opinion publique. Les chercheurs ont accordé un peu moins d'attention à la direction la plus récente: l'analyse du sentiment des manuels,de telles études ne sont apparues qu'en 2019. Ces travaux se concentrent sur la comparaison des sentiments exprimés dans différents manuels (par exemple, [77]) et l'impact de ces sentiments sur le processus éducatif (par exemple, [78]). Le principal défi vient du manque de vocabulaire spécifique à l'humeur et d'ensembles de données d'apprentissage axés sur les manuels. De plus, dans le cas des textes analytiques au niveau des documents, il devient difficile d'associer les textes à une certaine classe d'humeurs, car les textes des manuels sont longs et peuvent contenir plusieurs émotions différentes à la fois.orienté vers les manuels. De plus, dans le cas des textes analytiques au niveau des documents, il devient difficile d'associer les textes à une certaine classe d'humeurs, car les textes des manuels sont longs et peuvent contenir plusieurs émotions différentes à la fois.orienté vers les manuels. De plus, dans le cas des textes analytiques au niveau des documents, il devient difficile d'associer les textes à une certaine classe d'humeurs, car les textes des manuels sont longs et peuvent contenir plusieurs émotions différentes à la fois.



Pour saisir un plus large éventail d'opinions, certaines études fonctionnent avec des sources de données mixtes. Dans ce groupe, les chercheurs étudient généralement les attitudes à l'égard de différents sujets, tels que la crise ukrainienne (par exemple [79]) ou la couverture médiatique d'Alexei Navalny (par exemple [80]). Les sources étant mixtes, ces données peuvent être utilisées pour toute recherche éventuelle. Cependant, en plus du large éventail d'opinions exprimées, les auteurs sont également confrontés à des difficultés et des limites inhérentes aux sources.



Un résumé des approches trouvées est présenté dans le tableau 1. Si l'on considère la répartition des articles par année, on constate que le nombre d'études sur le sentiment du texte en russe a augmenté en 2014-2016 et atteint un pic en 2017. Le nombre d'articles publiés dans les mêmes revues et actes de conférence varie quelque peu. Plus d'un des articles analysés n'a été publié que dans sept revues et collections. La plupart des articles découverts ont été publiés dans la collection de documents de la conférence «Transformations numériques et société mondiale».



Tableau 1. Résumé des études découvertes. RB - approches basées sur des règles, ML - approches d'apprentissage automatique, UNK - approches inconnues, WL - analyse au niveau du mot, DL - analyse au niveau du document.



Catégorie Rendez-vous La description Lien
UGC . [81] ML (Logit) DL
[82] ML (Logit) DL
[83] ML (Logit) DL
[84] RB (SentiStrength) DL
[55] ML (SVM) DL
. [85] RB (custom) DL
[86] RB (POLYARNIK) DL
[87] RB (SentiMental) DL
[88] UNK (IQBuzz) DL
[56] RB (custom) DL
. [89] ML (SVM) DL
[57] RB (SentiStrength) DL
. [58] DL
2014 . [90] RB (SentiStrength) DL
2011-2012. [91] RB (SentiStrength) DL
-. [92] ML (NBC) DL
. [93] RB (custom) WL, DL
[68] ML (GBM) DL
. [69] ML (BiGRU) DL
, . [70] DL
- . [71] ML (NB, SGD) DL
, . [72] ML (RNTN) DL
. [94] RB (custom) DL
[95] RB (custom) DL
. [96] RB (custom) DL
. [75] UNK (Medialogia) DL
. [76] ML (SVM) DL
. [77] RB (custom) WL
, . [78] ML ( ) DL
[97] UNK (Crimson Hexagon) DL
[79] UNK (Crimson Hexagon) DL
[80] UNK (Medialogia) DL


Le ratio des approches basées sur des règles (40,63%) et de l'apprentissage automatique (37,5%) était à peu près égal. Le premier groupe utilisait le plus souvent des modèles basés sur des règles individuelles ou SentiStrength [22], qui est devenu l'algorithme le plus populaire parmi les solutions tierces prêtes à l'emploi. Et dans le second groupe, la régression logistique [32], la machine à vecteurs de support [33] et le classificateur bayésien naïf [30] ont été le plus souvent utilisés. Les plus populaires étaient les méthodes d'apprentissage automatique simples, et seulement 16,7% étaient sur des réseaux de neurones. Cependant, depuis 2019, la part des approches d'apprentissage automatique a largement dépassé la part des approches basées sur des règles. 15,6% des études ont révélé qu'ils utilisaient des services cloud tiers tels que Medialogia, IQBuzz et Crimson Hexagon pour l'analyse des sentiments.Dans ces cas, je n'ai pas pu déterminer les approches utilisées en raison du manque d'informations officielles sur les algorithmes de classification appliqués.



Dans plusieurs cas, des failles méthodologiques ont été décelées, notamment un manque de descriptions du prétraitement, du balisage des données, du processus d'apprentissage et des mesures de qualité de classification. Dans un certain nombre de cas, le modèle de classification n'a pas été validé par rapport à un ensemble de données lié au domaine. Cela est particulièrement vrai pour l'analyse des sentiments utilisant des approches basées sur des règles ou des services tiers - les chercheurs ne marquaient généralement pas manuellement les ensembles de textes et ne pouvaient donc pas évaluer la qualité de la classification.



5. Suivant



La deuxième partie de cet article paraîtra la semaine prochaine, dans laquelle nous examinerons de plus près chacune des 32 études principales que j'ai trouvées. Dans la troisième et dernière partie (encore une fois, la semaine prochaine), nous parlerons des difficultés communes rencontrées par les chercheurs, ainsi que des orientations prometteuses pour l'avenir. Si vous souhaitez lire l'intégralité de l'article en une seule fois et en anglais, rendez-vous ici .



6. Sources



Une liste complète des sources peut être trouvée ici .



All Articles