Ensemble de données SOVA Open Source: Audio pour la reconnaissance vocale et la synthèse

Bonjour à tous! Nous sommes une équipe de Nanosemantics et nous avons récemment lancé le projet SOVA, où nous collectons un ensemble de données à utiliser dans la formation des réseaux de neurones et la création d'assistants virtuels basés sur l'intelligence artificielle.





Nous avons préparé un vaste ensemble de données pour la formation des moteurs de reconnaissance vocale et nous souhaitons le partager afin que les entreprises puissent le mettre en œuvre dans leur propre pays pour résoudre divers problèmes commerciaux. Les données sont la nouvelle huile, et l'une des raisons les plus importantes de l'avancement des systèmes de reconnaissance d'apprentissage automatique est la présence d'ensembles de données étiquetés. Si vous êtes intéressé par la recherche et le développement dans le domaine de l'analyse de la parole, passez sous cat.



En 2019, Nanosemantics a reçu une subvention de la Fondation RVC, dans le cadre de laquelle il est nĂ©cessaire de prĂ©parer l'un des plus grands ensembles de donnĂ©es ouverts de Russie d'ici la fin de 2022. C'est une excellente occasion pour nous de crĂ©er un ensemble de donnĂ©es vraiment utile. Il comprendra 30 000 heures d'enregistrements audio avec paroles, 3 langues (russe, anglais et chinois) et un grand nombre de locuteurs, dont l'audio sera utilisĂ© dans l'ensemble de donnĂ©es. L'ensemble de donnĂ©es sera rendu public par Ă©tapes (gratuitement) afin que les dĂ©veloppeurs du monde entier puissent l'utiliser pour former des rĂ©seaux de neurones, crĂ©er leurs propres assistants virtuels avec intelligence artificielle et former des systèmes de reconnaissance vocale. 





, , : .





:





  1. , , . , — . .





  2. . , , - , . . . , . , , .









  3. . , .





, , —  .





, : - , - . , , , .









( ) – , - . , , , , , , , . . () Wikipedia





?





: , , , ,   .





« »: , . , , , 70 . , . , . , .





, , . , . , , .





, (, , . .), , , . , , , , . , " / ", " " . ., .





, ?





:





















:





  • -









  • Creative Commons Attribution – CC BY ( , )





  • Creative Commons Zero – CC0





  • WTFPL – Do What The Fuck You Want To Public License





, .





( )?





, .





5.1. 1235 , .





( )?





, - . .





, , , .





 





. , . 20 . , – - .





:













  • ,









, , . . , , , . , .





, : , , , .





– .









. , . 





:





  • , ,





  • , ,









  • , ,





:





  • .









, – . : , , . , , , . , , : , , , , . .





. , 20 . - , - . , , ; , , ? . .





:





  • .





  • .





  • , , .





  • , — .





  • ( ), , .





  • , , .





  • , .





, .





Logiciel d'enregistrement de voix off

.









, , , , . 





VoicyBot, «» . , , . , , . 





. , , — , . Open Source : . : , , , . , , , . . 





Youtube





. Youtube (), . , , .





. , (FEFU) , .





, , Creative Commons – CC BY. .





YouTube “ Creative Commons”. API Youtube. 





EngAudiobooksOriginal — , , .





EngAudiobooksNoisy — .





RuAudiobooksDevices — , , .





RuDevices — , .





Jeu de données Open Source SOVA
Open Source SOVA

— , . .





CER — Char Error Rate. . , . 





CER — 5.





, , 95% - — .





, : 





Paramètres standard pour tous les enregistrements audio

, , : -, .





.





: . , Youtube ( ), —  . .









, , .





—  forced alignment «» , . , , , . , , , . «» .   : NLab Speech «» . -.





, «», . , - .









, —  , . Voice Activity Detector — , . : 30 100 . - , 100 10 . —  , : .





: , , .





«», . , : , , .





/

. .





Common Voice. , . 7 335 60





Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .





CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.





M-AILABS Speech Dataset. 46 , LibriVox. .





Russian LibriSpeech (RuLS). , LibriVox. 98 .





Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).





, :





  • , OpenSTT, , ,





  • OpenSTT , . , .





  • OpenSTT : + .





, . , SOVA . , SOVA .





, ,  .





2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .





Open Source CC-BY 4.0. , , .





SOVA Dataset GitHub.





, . .





2021 . 10000 , . , , Youtube .





, 2022 30000 .





SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .





. , SOVA Dataset , . 





, . , , , partnership@sova.ai.








All Articles