
Il y a quelque temps, nous avons écrit une série d'articles sur la façon de mesurer correctement la qualité des systèmes de reconnaissance vocale, et avons en fait pris des mesures à partir des solutions disponibles (série d'articles - 1 , 2 , 3 ) (à l'époque, à la fois commerciaux et non- solutions commerciales). Sur Habré il y avait un extrait de ce cycle dans le cadre de cet article , mais les mains ne sont pas parvenues à une mise à jour à grande échelle de l'étude digne de publication sur Habré (cela demande au moins beaucoup d'efforts et de préparation).
Un certain temps a passé et il est temps de mettre à jour nos recherches, ce qui en fait un véritable ultimatum. Les éléments suivants ont été modifiés ou ajoutés par rapport aux études antérieures:
- De nombreux ensembles de validation ont été ajoutés à partir de différents domaines réels;
- , ;
- , ;
- (, );
- , - "", "";
(. ) :
-
wav
( PCM); - 8 ( , );
- - -, "" , , ;
- — WER. 20% WER, 5% WER ( , );
- 1 . 2-3 ( "" ). 500 !;
- ( , " "), ;
- , . 1 .. WER, ;
-
ogg/opus
, , , "" ; - (8 16 kHz), ;
, Silero bleeding egde, production . — WER ( WER ).
| Ashmanov | Sber | Sber | Silero | Silero new | Tinkoff | Yandex | |||
|---|---|---|---|---|---|---|---|---|---|
| default | enhanced | IVR | prod | bleeding edge | |||||
| 10 | 11 | 10 | 7 | 7 | 6 | 8 | 13 | ||
| 35 | 24 | 6 | 30 | 27 | 27 | 14 | |||
| 24 | 39 | 41 | 20 | 16 | 11 | 15 | 13 | ||
| () | 47 | 16 | 18 | 22 | 32 | 13 | 12 | 21 | 15 |
| 28 | 27 | 24 | 18 | 14 | 12 | 20 | 21 | ||
| () | 31 | 37 | 37 | 24 | 33 | 25 | 24 | 23 | 22 |
| 31 | 36 | 37 | 26 | 21 | 22 | 25 | 21 | ||
| 22 | 60 | 54 | 19 | 24 | 20 | 28 | 22 | ||
| 24 | 61 | 40 | 26 | 18 | 15 | 27 | 23 | ||
| () | 42 | 49 | 8 | 41 | 27 | 52 | 18 | ||
| 62 | 30 | 32 | 24 | 28 | 39 | 35 | 28 | 25 | |
| (e-commerce) | 34 | 45 | 43 | 34 | 45 | 29 | 29 | 31 | 28 |
| 34 | 29 | 29 | 31 | 20 | 20 | 31 | 29 | ||
| Yellow pages | 45 | 43 | 49 | 41 | 32 | 29 | 31 | 30 | |
| () | 43 | 55 | 59 | 41 | 67 | 38 | 37 | 33 | 32 |
| YouTube | 32 | 50 | 41 | 34 | 28 | 25 | 38 | 32 | |
| () | 44 | 72 | 66 | 46 | 41 | 35 | 38 | 35 | |
| 50 | 37 | 40 | 50 | 35 | 33 | 42 | 38 | ||
| 61 | 68 | 68 | 54 | 41 | 32 | 43 | 42 | ||
| , | 54 | 70 | 60 | 61 | 43 | 41 | 56 | 54 | |
| 39 | 50 | 53 | 32 | 25 | 20 | 27 |
WER, .
( , , , - ). . ( , ).
| Ashmanov | Sber | Sber | Silero | Tinkoff | Yandex | |||
|---|---|---|---|---|---|---|---|---|
| default | enhanced | IVR | ||||||
| 0% | 0% | 0% | 0% | 0% | 5% | 4% | ||
| 0% | 2% | 0% | 0% | 4% | 0% | |||
| 1% | 12% | 13% | 6% | 0% | 2% | 1% | ||
| () | 0% | 0% | 0% | 1% | 0% | 0% | 7% | 0% |
| 0% | 1% | 0% | 0% | 0% | 2% | 0% | ||
| () | 0% | 0% | 0% | 2% | 0% | 0% | 6% | 0% |
| 0% | 8% | 10% | 4% | 0% | 4% | 0% | ||
| 0% | 22% | 6% | 2% | 0% | 1% | 0% | ||
| 0% | 19% | 2% | 3% | 1% | 4% | 0% | ||
| () | 0% | 12% | 0% | 0% | 1% | 0% | ||
| 0% | 2% | 3% | 1% | 1% | 0% | 5% | 1% | |
| (e-commerce) | 0% | 0% | 0% | 7% | 1% | 0% | 7% | 0% |
| 0% | 0% | 0% | 1% | 0% | 4% | 0% | ||
| Yellow pages | 1% | 13% | 9% | 14% | 0% | 2% | 2% | |
| () | 0% | 0% | 7% | 35% | 9% | 0% | 5% | 0% |
| YouTube | 0% | 13% | 1% | 6% | 0% | 1% | 0% | |
| () | 1% | 33% | 12% | 17% | 5% | 1% | 1% | |
| 0% | 1% | 0% | 7% | 0% | 6% | 1% | ||
| 3% | 26% | 28% | 25% | 0% | 2% | 4% | ||
| , | 2% | 19% | 3% | 25% | 0% | 1% | 1% | |
| 1% | 12% | 14% | 9% | 0% | 3% | 0% |
, .
, , . Tinkoff — , , . " " (, 1/10 ) . IVR , 8 kHz, , . — , , . — Google, .
, production / ( "" 10% ):
| Ashmanov | 0 | 7 |
| 1 | 13 (9 enhanced) | |
| Sber | 2 | 0 |
| Sber IVR | 4 | 4 |
| Silero | 13 | 0 |
| Tinkoff | 6 | 2 |
| Yandex | 10 | 1 |
— , . " " — . bleeding edge ( ), " " , 17 21. , .
gRPC API. SMB , . ( , ). , "" , . 40 ( PDF), .
Tinkoff gRPC, ( , ). enterprise ( , ) , , . , .
… , , . , b2b , , . 500- 200 . -, "" .

, ( ) ( — ). 1 (RTS = 1 / RTF):
| RTS per Thread | Threads | ||
|---|---|---|---|
| Ashmanov | 0.2 | 8 | |
| Ashmanov | 1.7 | 1 | |
| 4.3 | 8 | ||
| Google enhanced | 2.9 | 8 | |
| Sber | 13.6 | 8 | |
| Sber | 14.1 | 1 | |
| Silero | 2.5 | 8 | 4-core, 1080 |
| Silero | 3.8 | 4 | 4-core, 1080 |
| Silero | 6.0 | 8 | 12 cores, |
| Silero | 9.7 | 1 | 12 cores, |
| Tinkoff | 1.4 | 8 | |
| Tinkoff | 2.2 | 1 | |
| Yandex | 5.5 | 2 | 8 — |
RTS, .
( , ) ( ), . VDS, Nvidia Tesla, - ( — ). .
, EX51-SSD-GPU, . , , .
. 12 + GPU ~150 RTS. , 12+ , . , - . aspirational 2-3 .
( ), ( ) . — ( ), . - … 60 !

, Open STT, , , . - . , . , .
/
, 1080 Ti, 2080 Ti. , .
C'est à Yandex que nous avons envoyé les données au format opus
. Nous avons testé un peu, il semble que Yandex n'a pas de différence particulière entre wav
et opus
non.