Et le chat, et le robot et l'orthophoniste. Comment développer un service basé sur le ML pour diagnostiquer les défauts d'élocution chez les enfants

"Sasha a marché le long de l'autoroute", "Dites: rrrrryba", "Coucou coucou ..." - vous savez, oui, ces phrases qui nous ont tous traumatisés dans l'enfance? C'était une sorte d'expérience sans fin de parents avec un résultat souhaité non formé et, surtout, des craintes que leur enfant grandisse avec un trouble de la parole. 





Hey! Je m'appelle Dima Pukhov, je suis le directeur technique de Cleverbots. Je veux vous dire comment nous avons appris au chatbot à reconnaître les défauts d'élocution et à atteindre une précision de 80% dans les diagnostics d'un orthophoniste IA.





Problème

Un étudiant sur deux a des problèmes de prononciation, disent les orthophonistes. Ils peuvent être éliminés à un stade précoce, mais souvent les difficultés sont attribuées à l'enfance, et lorsque les défauts d'élocution deviennent évidents, il est difficile de les résoudre. Par conséquent, le spectrogramme, en tant que service de diagnostic primaire à distance, sera en mesure d'empêcher le développement et l'aggravation de problèmes et de signaler si une intervention spécialisée est nécessaire. 





L'année dernière, la société pharmaceutique Geropharm, afin de lutter contre les peurs et les stéréotypes sur le développement cognitif, a lancé le portail PRO.MOZG, où vous pouvez lire de nombreux documents utiles et accessibles sur le fonctionnement du cerveau, le fonctionnement des maladies et le changements corporels. De plus, le site dispose d'un spectrogramme - un service qui aide les parents à tester leur enfant dans un format de jeu et à déterminer s'il a des défauts d'élocution.





En bref sur le service

Pour les utilisateurs, l'interface Spectrogram est implémentée sous la forme d'un chat bot et est intégrée en tant que widget sur le site Web. Les tests se déroulent de manière ludique: sous la direction des parents, l'enfant doit prononcer les phrases proposées, qui doivent ensuite être envoyées au bot au format de messages audio, et le modèle ML déterminera automatiquement si la phrase est prononcée. avec un défaut.





Il est important de prendre un peu de recul et de se rappeler comment c'était au début.





Lors de la première étape de l'introduction d'un service similaire, tous les questionnaires ont été envoyés à un orthophoniste, chacun devait être écouté et évalué si les capacités d'élocution de l'enfant correspondaient à l'âge, un avis d'expert a été donné et une note correspondante dans le système devrait être ensemble. Et c'est plus de 10 entrées par questionnaire. 





, , , , .





– . . .





– . , , . .





:





  • , - (MFCC). feature engineering;









  • Deep Learning, , speech2text. , , , ;





  • . , Yandex, Google, AWS , speech2text , , .





, , – .





, :





  1. ;





  2. ( );





  3. ;





  4. .





, – , .





. , , / .





(, ) 3Sigma - . , , / .





.





spectral & rhythm features librosa , . PCA , 0.99 ROC_AUC.





, speech2text. : Yandex, Google, Amazon. , , : , speech2text , .





... , , , . , , , . ( ). , – timestamp .





– spectral & rhythm features librosa, tsfresh PCA ( ). : ROC_AUC 0.85, – , .





( 52 ; <100 ). – , .





– . onset_detection, , . balanced_accuracy_score, 0.80, .





, , . – DTW Audio Fingerprinting. , , , , .





production

  • Python;





  • Kafka – ;





  • Django .





, , . , , .





. , , : , . , , , , .





( , , ~10 ) , «» , – . , , . , . , .





, , , , -, – 80% . -, : .





Dans le futur, une transition complète est prévue du modèle humain dans la boucle, lorsque la participation d'une personne au diagnostic est nécessaire, à une automatisation complète du processus grâce à un modèle recyclé. 








All Articles