Bonjour à tous! Nous sommes une équipe de Nanosemantics et nous avons récemment lancé le projet SOVA, où nous collectons un ensemble de données à utiliser dans la formation des réseaux de neurones et la création d'assistants virtuels basés sur l'intelligence artificielle.
Nous avons préparé un vaste ensemble de données pour la formation des moteurs de reconnaissance vocale et nous souhaitons le partager afin que les entreprises puissent le mettre en œuvre dans leur propre pays pour résoudre divers problèmes commerciaux. Les données sont la nouvelle huile, et l'une des raisons les plus importantes de l'avancement des systèmes de reconnaissance d'apprentissage automatique est la présence d'ensembles de données étiquetés. Si vous êtes intéressé par la recherche et le développement dans le domaine de l'analyse de la parole, passez sous cat.
En 2019, Nanosemantics a reçu une subvention de la Fondation RVC, dans le cadre de laquelle il est nécessaire de préparer l'un des plus grands ensembles de données ouverts de Russie d'ici la fin de 2022. C'est une excellente occasion pour nous de créer un ensemble de données vraiment utile. Il comprendra 30 000 heures d'enregistrements audio avec paroles, 3 langues (russe, anglais et chinois) et un grand nombre de locuteurs, dont l'audio sera utilisé dans l'ensemble de données. L'ensemble de données sera rendu public par étapes (gratuitement) afin que les développeurs du monde entier puissent l'utiliser pour former des réseaux de neurones, créer leurs propres assistants virtuels avec intelligence artificielle et former des systèmes de reconnaissance vocale.
, , : .
:
, , . , — . .
. , , - , . . . , . , , .
.
. , .
, , — .
, : - , - . , , , .
( ) – , - . , , , , , , , . . () Wikipedia
?
: , , , , .
« »: , . , , , 70 . , . , . , .
, , . , . , , .
, (, , . .), , , . , , , , . , " / ", " " . ., .
, ?
:
:
-
Creative Commons Attribution – CC BY ( , )
-
WTFPL – Do What The Fuck You Want To Public License
, .
( )?
, .
5.1. 1235 , . |
( )?
, - . .
, , , .
. , . 20 . , – - .
:
,
, , . . , , , . , .
, : , , , .
– .
. , .
:
, ,
, ,
, ,
:
.
, – . : , , . , , , . , , : , , , , . .
. , 20 . - , - . , , ; , , ? . .
:
, .
.
, , , , .
VoicyBot, «» . , , . , , .
. , , — , . Open Source : . : , , , . , , , . .
Youtube
. Youtube (), . , , .
. , (FEFU) , .
, , Creative Commons – CC BY. .
YouTube “ Creative Commons”. API Youtube.
EngAudiobooksOriginal — , , .
EngAudiobooksNoisy — .
RuAudiobooksDevices — , , .
RuDevices — , .
— , . .
CER — Char Error Rate. . , .
CER — 5.
, , 95% - — .
, :
, , : -, .
.
: . , Youtube ( ), — . .
, , .
— forced alignment «» , . , , , . , , , . «» . : NLab Speech «» . -.
, «», . , - .
, — , . Voice Activity Detector — , . : 30 100 . - , 100 10 . — , : .
: , , .
«», . , : , , .
/
. .
Common Voice. , . 7 335 60
Russian Speech Database (STC Russian). 1996-1998 89 . 5 . 15 1-3 . , 200 4000 EUR . . , 10-30 .
CSS10 Russian: Single Speaker Speech Dataset. CSS10 (A Collection of Single Speaker Speech Datasets for 10 Languages) 22 , LibriVox. CC0: Public Domain.
M-AILABS Speech Dataset. 46 , LibriVox. .
Russian LibriSpeech (RuLS). , LibriVox. 98 .
Russian Open Speech To Text (STT/ASR) Dataset, OpenSTT. , . 20000 ( 2,3 TB .wav). , , YouTube, , . . CC-BY-NC ( ).
, :
, OpenSTT, , ,
OpenSTT , . , .
OpenSTT : + .
, . , SOVA . , SOVA .
, , .
2021 SOVA Dataset 11,402 . 1,1 TB .wav. , .
Open Source CC-BY 4.0. , , .
SOVA Dataset GitHub.
, . .
2021 . 10000 , . , , Youtube .
, 2022 30000 .
SOVA Dataset – Open Source SOVA.ai: . . Open Source , , « ». , , - Open Source .
. , SOVA Dataset , .
, . , , , partnership@sova.ai.