Nous avons publié des modèles STT modernes de qualité comparable à Google



Nous avons enfin publié notre ensemble de modèles de reconnaissance vocale pré-formés de haute qualité (c'est-à-dire de qualité comparable aux modèles premium de Google ) pour les langues suivantes:



  • Anglais;
  • Allemand;
  • Espagnol;


Vous pouvez trouver nos modèles dans notre référentiel avec des exemples et des mesures de qualité et de rapidité. Nous avons également essayé de rendre la mise en route de nos modèles aussi simple que possible - nous avons publié des exemples sur Collab et des points de contrôle pour PyTorch, ONNX et TensorFlow. Les modèles peuvent également être téléchargés via TorchHub.



PyTorch ONNX TensorFlow Qualité Colab
Anglais (en_v1) lien Ouvrir dans Colab
Allemand (de_v1) lien Ouvrir dans Colab
Espagnol (es_v1) lien Ouvrir dans Colab


Pourquoi c'est important



La reconnaissance vocale a traditionnellement posé des barrières importantes à l'entrée pour un certain nombre de raisons:



  • Les données sont difficiles à collecter;
  • Le balisage pour une unité de données comparable est beaucoup plus cher que dans la vision par ordinateur;
  • Exigences élevées en matière de puissance de calcul et technologies obsolètes;


Voici une liste des problèmes typiques rencontrés par les solutions de reconnaissance vocale existantes avant notre sortie:



  • La recherche dans ce domaine est généralement effectuée avec une énorme puissance de calcul;
  • - , " ", ;
  • , - ;


- , ( ). :



  • - ;
  • ;
  • ;
  • - ;
  • , , ;




, . :



  • ;
  • . , , ;
  • ("1 ");




, — 50 .

— 10-20 .

.








All Articles