Enregistrement des conversations sur un astérisque et leur reconnaissance sur Yandex.

Petit projet. Implémentation simple. Une note sur le plan de numérotation astérisque, les commandes de la console et l'API de reconnaissance Yandex. Vous lirez et ne marcherez pas sur mon râteau, je le lirai dans six mois ou un an et me rappellerai ce que j'ai fait.





Objectif: obtenir une représentation textuelle des conversations enregistrées sur un astérisque.





Enregistrez d'abord la conversation

MixMonitor enregistre la conversation. En général, MixMonitor enregistre les deux interlocuteurs sur un seul canal. Nous devons obtenir chaque canal dans un fichier séparé. Par conséquent, il existe deux options r et t où nous pouvons spécifier des fichiers pour enregistrer différents canaux.





Le paramètre b est également utilisé - pour démarrer l'enregistrement au moment où la conversation commence.





Avec 16 astérisques, il y avait une option S - pour synchroniser les fichiers t et r, (un silence a été ajouté au début du fichier dans celui qui a commencé à être enregistré plus tard). L'option S a été supprimée du 18e astérisque, car ceci est devenu le comportement par défaut et la contre-option n a été ajoutée. Mais j'utilise b, donc je n'avais pas besoin de ces danses supplémentaires.





MixMonitor (record-o.wav, br (record-r.wav) t (record-t.wav), commande)





Ensuite, également dans la commande MixMonitor, nous spécifierons la commande à exécuter après l'enregistrement. Dans le cadre de cette commande, nous normaliserons chaque enregistrement - le nivelerons, puis fusionnerons les deux enregistrements en un seul fichier à deux canaux.





sox --norm record-t.wav record-t-norm.wav // normalise l'enregistrement d'un côté de la conversation









sox --norm record-r.wav record-r-norm.wav // normalise l'enregistrement du deuxième côté de la conversation









sox record-r-norm.wav record-t-norm.wav --channels 2 --combine merge record.wav //





- , - . , , .





record-o.wav - MixMonitor', , .





wav . mp3 .













https://howto.a17.su/asterisk/call-recording.html





https://voxlink.ru/kb/asterisk-configuration/integraciya-asterisk-so-speech-analytics/





.





API : , . - 30 , API .





- wav ogg . wav , API wav-, ogg. , ogg





/usr/bin/ffmpeg -i record.wav -acodec libopus record.ogg // ogg





-, ( ) , .





S3-, S3- . buckets.





.Storage





, , id. id ( , , , ).





.





.





, 2020, - . - 2 .





.. . , , . . , . , . . .





: - . - . . .





, .. ( ).





( SpeechKit)





Clés d'accès. L'essentiel ici est de ne pas se confondre, car vous aurez des clés à la fois du service de reconnaissance (clé API) et du stockage S3 (clé statique). Les deux types de clés sont sur le compte de service.









Espérons que cet article vous fera gagner quelques minutes et que vous implémenterez rapidement votre projet au besoin.








All Articles