Atelier de recherche. Assistants virtuels activés par la voix - quel est le problème avec eux?

introduction



Les analystes qui recherchent des services de chatbot et d'assistant virtuel promettent une croissance du marché d'au moins 30% par an. En termes absolus, en 2019, le marché était évalué à plus de 2 milliards de dollars par an. Pratiquement toutes les principales sociétés informatiques du monde ont lancé des assistants vocaux virtuels, et Apple, Google et Amazon ont déjà fait l'essentiel de leur vulgarisation.



image



Le marché russe a également ses propres leaders dans ce domaine. Yandex est devenu le premier acteur majeur à lancer son propre assistant vocal en Russie. Selon les données officiellement publiées de la société, 45 millions d'utilisateurs par mois utilisent Alice et le nombre de demandes mensuelles à l'assistant est supérieur à 1 milliard.Selon les experts, 2020 pourrait être un tournant pour le marché des assistants vocaux - la concurrence entre plateformes et marques entraînera une augmentation de la reconnaissance des assistants ...



En général, il ne fait aucun doute que le marché des assistants vocaux est un créneau intéressant. Et la première idée qui me vient à l'esprit est de prendre l'un des services ASR (Automatic Speech Recognition) et TTS (Text To Speech) disponibles, de les lier à un constructeur de bot prenant en charge NLU (Natural Language Understanding), et c'est tout! De plus, tout cela peut être implémenté assez facilement et rapidement dans des plates-formes cloud telles que Twilio et VoxImplant.



Le seul problème est que le résultat sera très médiocre. Quelle est la raison pour ça? Tout d'abord, essayons de comprendre pourquoi une combinaison de très bonnes technologies, mises ensemble, donne un résultat aussi médiocre. Ceci est important car dans la vraie vie, le client donnera toujours la préférence au service dont le service vocal est plus pratique, plus intéressant, plus intelligent et plus rapide que les autres.



Comment fonctionne un assistant vocal typique



Tout d'abord, nous notons que notre discours est une séquence de sons. Le son, à son tour, est la superposition de vibrations sonores (ondes) de différentes fréquences. Une onde, comme nous le savons de la physique, est caractérisée par deux attributs: l'amplitude et la fréquence. Algorithme de travail de



image

Speech Signal



Assistant:



  1. , , – . , «», .. .



    , , , - . ( ), «» . , , — , — . , , . , , , , .



    , , , , . , ASR .



    , – . , .



    , .
  2. Le résultat du travail de l'assistant vocal, obtenu à la première étape, est transmis au bot, avec un support NLU pour identifier les intentions, les entités, remplir les créneaux et former le texte de réponse.



    En conséquence, en sortie, nous obtenons une présentation de test de la phrase de réponse, qui est la réaction de notre assistant vocal à la demande reçue.
  3. La réponse de l'assistant vocal est transmise au service de synthèse vocale, qui est ensuite exprimée à la personne.


Problèmes émergents



Malgré la justesse apparemment évidente de l'approche mise en œuvre, dans le cas d'un assistant vocal, cela pose beaucoup de problèmes. Voici les principaux:



  1. Retards
  2. Retards




  3. . , , 500 , .



    , 1 . - « » : «!» « ?». , , , , -, .



    , :



    • . – « »: , , .
    • .
    • .
    • .


    !

  4. . , .. . . , , , .. .
  5. . , . , , – .
  6. – . . , .



    :



    — ?

    — . , ? ?



    – « » : « » « ». « » , « » « ».
  7. -. .



    :



    — ---… ---…

    — , , … --…

    — , , --… , …



    , .. , , . .. , .
  8. , TTS-.


?



Tout d'abord, lors de la mise en place d'un assistant vocal, il est impératif de s'assurer que l'interlocuteur est «écouté», incl. dans ces moments où l'assistant virtuel lui-même exprime le message sortant. Le choix d'écouter ou de répondre est une mise en œuvre extrêmement médiocre et doit être évité dans la vraie vie.



Deuxièmement, vous devez optimiser la vitesse de tous les composants du système. Cependant, à un moment donné, nous nous heurterons certainement aux limites de la réduction possible des latences et de la complication des scénarios de traitement du langage naturel. Par conséquent, nous comprenons qu'il est nécessaire de changer fondamentalement l'approche de la mise en œuvre du service vocal.



L'idée principale derrière la nouvelle approche est de prendre un exemple du processus mis en œuvre par le cerveau humain. Avez-vous remarqué qu'une personne, au cours d'une conversation, commence à analyser le message que dit l'interlocuteur, non pas au moment où il était complètement terminé, mais presque immédiatement, au tout début de sa résonance, en le clarifiant à chaque nouveau mot? Pour cette raison, nous sommes souvent prêts à donner une réponse avant même que l'interlocuteur n'ait terminé son message.



Si nous revenons à l'algorithme que l'assistant virtuel vocal doit implémenter, cela peut ressembler à ceci (à titre d'illustration, considérez la question d'entrée: "Où est le distributeur automatique le plus proche?"):



  1. ASR , . .



    :



    a) «»

    b) «»

    c) «»

    d) «»
  2. , ,



    :



    a) «»

    b) « »

    c) « »

    d) « »
  3. , NLU, .



    :



    a) : «». :

    b) : « ». : « » 50%, « » 50%

    c) : « ». : « » 50%, « » 50%, « » = « »

    d) : « ». : « » 100%, « » = « »



    image



  4. , 1 , , , , :



    • ;
    • ;
    • , .. 3.


    , , ( – = 0%).



    , . , , , , , .
  5. Dès qu'il est révélé que l'utilisateur a terminé son message (déterminé par le retard dans le flux d'entrée), nous vidons la réponse correspondant à l'intention détectée la plus probable dans le tampon de sortie. Mieux encore, pour optimiser la vitesse, gardez dans la mémoire tampon de sortie non la représentation textuelle de la réponse, mais immédiatement le fragment audio reçu du TTS, accumulant ainsi la version complète du message audio de réponse.
  6. Nous annonçons le contenu du tampon de sortie à l'utilisateur.


Moyens d'améliorer la qualité du travail de l'assistant



Voyons quelles méthodes sont disponibles pour améliorer encore la qualité de notre assistant virtuel vocal:







  1. . , . , (/ , ..) .
  2. «»



    «» , , . , «» .



    , «» , , .




  3. , , . .. , , , . , , , . , ..




  4. , -. .



    , , « ». – , . , , .




  5. , . , .. .




  6. , , . , , , . , .



    . online.


-



Jusqu'à présent, nous n'avons considéré que les caractéristiques techniques de la mise en œuvre des assistants vocaux virtuels. Mais il faut comprendre que le succès ne dépend pas toujours uniquement de la perfection de la mise en œuvre technique. Analysons l'exemple déjà envisagé: "Où est le guichet automatique le plus proche?" et comprendre quelle est la particularité de sa mise en œuvre dans l'interface vocale.



Vous savez, il existe une règle qui s'applique aux directeurs des ventes: «Ce qui ne peut pas être vendu par téléphone ne doit pas être vendu par téléphone». Pour cette raison même, la réponse du formulaire "Le guichet automatique le plus proche est situé à ..." n'est pas informative pour une personne. S'il connaissait bien la région où il se trouve maintenant, c.-à-d. S'il connaissait les noms de toutes les rues et numéros de maison à proximité, il aurait probablement su où se trouve le guichet automatique le plus proche. Ainsi, une telle réponse entraînera très probablement immédiatement la formation d'une autre question: "Où est alors l'adresse qui vient d'être nommée?" Une réponse beaucoup plus informative serait l'option: "Le guichet automatique le plus proche est situé à une centaine de mètres de vous en direction du sud-est", ou encore mieux, envoyez également à une personne un message comme l'emplacement sur Yandex ou Google Maps.



La règle générale ici est que si pour une utilisation ultérieure des informations il est nécessaire de les transférer vers un autre canal de perception, alors cette option est un choix malheureux pour une implémentation directe dans le cadre de l'interface vocale. Il est nécessaire de reformuler la réponse sous une forme pratique pour l'écoute.



Pour un certain nombre de services, leur implémentation dans le cadre d'un assistant vocal est généralement la solution la plus aboutie. Par exemple, si une personne se trouve dans une situation stressante, il lui est généralement difficile de se concentrer et de décrire rapidement le problème dans un texte dans le chat, et elle préférera toujours tout exprimer par la voix. Cela peut devenir un critère important lors du choix des business cases à implémenter dans le cadre d'un assistant vocal virtuel.



Le deuxième choix évident de cas de mise en œuvre par «voix» est la nécessité de les utiliser dans des situations où il existe soit des restrictions légales à ce sujet (par exemple, en conduisant une voiture, il est interdit d'effectuer une correspondance textuelle), soit il est tout simplement peu pratique d'utiliser d'autres canaux de communication (par exemple, pendant le travail ou faire du sport lorsque les mains d'une personne sont simplement occupées).



Il n'y a pas de limites pour la perfection



La voix est plus pratique que toute autre interface lorsque l'utilisateur a besoin d'une fonction très spécifique pour résoudre une tâche très spécifique. Pourquoi donc? C'est très simple - dans une telle situation, la nécessité d'attendre le chargement du site, de faire défiler la page, de rechercher dans le menu de l'application, d'appuyer sur des boutons, etc. toujours plus gênant qu'une commande vocale rapide. Les sites Web et les applications sont multifonctionnels. Et c'est à la fois leur avantage et leur inconvénient. La compétence vocale doit être adaptée à la fonction «ici et maintenant».



Il est important de se rappeler que vous devez éviter les situations où les commandes vocales doivent être accompagnées de toute action supplémentaire dans d'autres interfaces. Sinon, cela rend le canal vocal inopérant. le principe des yeux libres est violé, car il est nécessaire de lire, et mains libres, si quelque chose d'autre doit être serré.



Une autre recommandation importante est que vous ne devriez pas essayer d'apprendre à parler à une personne. Il peut parfaitement le faire sans nous, car la langue est une interface déjà familière et compréhensible. Exemple illustratif de mauvais style: "Pour réécouter ce message, dites: Réécoutez." Toi et moi ne parlons pas comme ça dans la vie ordinaire. N'est-ce pas vrai? Mieux vaut simplement demander: "Ecoutez à nouveau le message ou passez au suivant?"



Il est recommandé de mettre en œuvre un assistant virtuel activé par la voix pour éviter complètement les questions ouvertes. Il est conseillé d'orienter l'interlocuteur vers des actions spécifiques. Il est particulièrement utile lorsque l'assistant joue le rôle de navigateur ou de système de recommandation. Un assistant vocal ne doit pas demander trop d'informations à une personne. Vérifiez-le au fur et à mesure que la conversation progresse.



Et enfin, je voudrais noter que la personnalisation est peut-être le principal qui manque aux interfaces de dialogue vocal existantes. Sans cela, il est impossible de mener un dialogue plus ou moins long. L'assistant doit collecter des données sur l'interlocuteur, structurer et vérifier les informations reçues. Il est important de ne pas perdre le fil du dialogue, de préserver et de prendre en compte le contexte de la conversation. C'est important. Sinon, l'assistant ne pourra implémenter que des requêtes courtes et plutôt simples et, par conséquent, cela ne vous permettra pas d'entrer dans un dialogue véritablement en direct lorsque l'assistant vocal communique avec l'utilisateur.



All Articles