Donc, la tâche: créer un algorithme pour vérifier "Dictée totale". Il semblerait, quoi de plus facile? Il y a des réponses correctes, il y a des textes des participants: prenez-le et faites-le. Tout le monde sait comparer les lignes. Et puis l'intéressant commence.
Des virgules si différentes; ou des points-virgules?
Le langage naturel est une chose complexe qui a souvent plus d'une interprétation. Même dans une tâche telle que la vérification d'une dictée (où, à première vue, il y a la seule solution correcte), il faut tenir compte dès le début du fait qu'en plus de celle de l'auteur, il peut y avoir d'autres options correctes. D'ailleurs, les organisateurs du concours y ont même pensé: ils ont plusieurs orthographes acceptables. Au moins parfois. L'important ici est que les compilateurs ne seront probablement pas en mesure d'indiquer toutes les options correctes, de sorte que les participants au concours devraient peut-être réfléchir à un modèle pré-formé sur un grand corpus de textes qui ne sont pas directement liés à la dictée. En fin de compte, selon la compréhension du contexte, une personne peut mettre une virgule ou ne pas mettre un point-virgule; dans certains cas, tout est possible: utiliser un deux-points, un tiret (ou même des parenthèses).
Le fait qu'il s'agisse d'une dictée et non d'un essai à évaluer n'est pas un bogue, mais une fonctionnalité. Les systèmes de notation automatique des essais sont très populaires aux États-Unis. 21 États utilisent des solutions d'épreuvage d'essai automatisées pour le GRE. Ce n'est que récemment qu'il a été constaté que ces systèmes donnent des notes élevées à des textes plus volumineux qui utilisent un vocabulaire plus complexe (même si le texte lui-même n'a pas de sens). Comment avez-vous trouvé? Les étudiants du MIT ont développé un programme spécial BABEL (Basic Automatic BS Essay Language), qui générait automatiquement des chaînes de mots complexes. Les systèmes automatisés ont donné une très bonne note à ces «essais». Tester des systèmes modernes basés sur l'apprentissage automatique est un plaisir. Un autre exemple tout aussi chaud: l'ancien professeur du MIT Les Perelmana proposé le système e-rater d'ETS, qui produit et note les examens GRE et TOEFL, pour vérifier l'essai de 5000 mots de Noam Chomsky. Le programme a trouvé 62 erreurs grammaticales inexistantes et 9 virgules manquantes. Conclusion - les algorithmes ne fonctionnent pas encore bien avec le sens. Parce que nous-mêmes pouvons très mal définir ce que c'est. La création d'un algorithme qui vérifie la dictée a un sens appliqué, mais cette tâche n'est pas aussi simple qu'il y paraît. Et le point ici n'est pas seulement l'ambiguïté de la bonne réponse, que j'ai dit ici, mais aussi que la dictée est dictée par une personne.
La personnalité du dictateur
La dictée est un processus complexe. La façon dont le «dictateur» lit le texte - comme les organisateurs de la dictée totale appellent en plaisantant ceux qui contribuent à son exécution - peut influencer la qualité finale du travail. Un système de relecture idéal mettrait en corrélation les résultats des rédacteurs avec la qualité de la dictée utilisant la synthèse vocale. De plus, des solutions similaires sont déjà utilisées dans l'éducation. Par exemple, Third Space LearningEst un système créé par des scientifiques de l'University College London. Le système utilise la reconnaissance vocale, analyse la façon dont l'enseignant mène la leçon et, sur la base de ces informations, formule des recommandations sur la manière d'améliorer le processus d'apprentissage. Par exemple, si un enseignant parle trop vite ou trop lentement, doucement ou fort, le système lui enverra une notification automatique. À propos, sur la base de la voix de l'élève, l'algorithme peut déterminer qu'il perd tout intérêt et s'ennuie. Différents dictateurs peuvent influencer les résultats finaux de la dictée pour différents participants. Il y a une injustice qui peut être supprimée par quoi? Droite! Dictateur d'intelligence artificielle! Repentez-vous, nos jours sont comptés. D'accord, sérieusement, en ligne, vous pouvez simplement donner à tout le monde la même bande son, ou mettre dans l'algorithme une évaluation de la qualité du "Dictator", aussi séditieux que cela puisse paraître. Ceux,qui ont été dictés plus rapidement et moins clairement peuvent compter sur des points supplémentaires «pour la nocivité». Quoi qu'il en soit, si nous avons le discours-texte, alors une autre idée vient à l'esprit.
Robot et homme: qui écrira le mieux la dictée?
Si nous faisons de la reconnaissance sonore dans l'émission, il va sans dire de créer un participant virtuel à la dictée. Ce serait cool de comparer les succès de l'IA et des humains, d'autant plus que des expériences similaires dans diverses disciplines éducatives sont déjà activement menées dans le monde. Ainsi, en Chine, en 2017, AI a réussi l'examen d'État «gaokao» dans la ville de Chengdu - c'est quelque chose comme l'examen de russe. Il a marqué 105 points sur 150 possibles - c'est-à-dire qu'il a réussi les sujets avec un solide «trois». Il convient de noter que, comme dans le problème de la «dictée totale», le plus difficile pour l'algorithme était de comprendre la langue - dans ce cas, le chinois. En Russie, la Sberbank a réalisé l' année dernièredes concours pour développer des algorithmes pour passer des tests en langue russe. L'examen d'État unifié se composait de tests et d'un essai sur un sujet donné. Les tests pour les robots ont été compilés avec un niveau de complexité accru et se composaient de trois étapes: terminer directement la tâche, mettre en évidence des exemples selon les règles et le libellé donnés, et également enregistrer correctement la réponse.
Revenons de la discussion sur «ce qui peut être fait d'autre», en fait, au problème de la dictée.
Carte d'erreur
Entre autres, les organisateurs du concours demandent une carte thermique des erreurs. Des outils comme la carte thermique montrent où et à quelle fréquence les gens se trompent; il est logique qu'ils commettent le plus souvent des erreurs dans des endroits difficiles. En ce sens, en plus de l'écart avec les options de référence, vous pouvez utiliser une carte thermique basée sur les écarts des autres utilisateurs. Une telle validation collective des résultats des uns et des autres est facile à mettre en œuvre, mais peut améliorer considérablement la qualité de la vérification.
Des statistiques partiellement similaires "Total Dictation" sont déjà collectées, mais elles sont effectuées manuellement avec l'aide de bénévoles. Par exemple, grâce à leur travailnous avons appris que la plupart de tous les utilisateurs font des erreurs dans les mots «lent», «trop», «planifié». Mais la collecte de ces données rapidement et efficacement devient plus difficile, plus il y a de participants à la dictée. Plusieurs plateformes éducatives utilisent déjà des outils similaires. Par exemple, l'une des applications populaires pour l'apprentissage des langues étrangères utilise ces technologies pour optimiser et personnaliser les leçons. Pour ce faire, ils ont développé un modèle dont la tâche est d'analyser les combinaisons de fréquences d'erreurs de millions d'utilisateurs. Cela permet de prédire à quelle vitesse un utilisateur peut oublier un mot particulier. La complexité du sujet étudié est également prise en compte.
En général, comme le dit mon père: «Toutes les tâches sont divisées en conneries et sourds. Bullshit - ce sont des tâches qui ont déjà été résolues ou qui n'ont pas encore commencé à être résolues. Les personnes sourdes sont des tâches que vous résolvez en ce moment. " Même autour du problème de la validation de texte, l'apprentissage automatique vous permet de poser beaucoup de questions et de créer un tas d'add-ons qui peuvent changer qualitativement l'expérience de l'utilisateur final. Nous découvrirons ce que feront les participants au World AI & Data Challenge d'ici la fin de l'année.