HĂ©, Google: les appareils intelligents s'activeront sans commandes



Photo de Cristian Cristian sur Unsplash



Dans un proche avenir, il sera possible d'activer le haut-parleur vocal Amazon Echo ou Nest Audio, de rechercher dans Google ou Siri sur les appareils Apple sans un message d'accueil comme "Bonjour Google!" Avec l'aide de l' intelligence artificielle, des scientifiques américains ont développé un algorithme grùce auquel les assistants vocaux intelligents comprennent qu'une personne leur parle.



Dans une conversation ordinaire, les gens dĂ©signent le destinataire d'un message simplement en le regardant. Mais la plupart des appareils vocaux sont conçus pour ĂȘtre activĂ©s par des phrases clĂ©s que personne ne prononce dans une communication rĂ©elle. La comprĂ©hension des signaux non verbaux par les assistants vocaux rendrait la communication plus facile et plus intuitive. Surtout s'il y a plusieurs appareils de ce type dans la maison.



Les scientifiques de l'Université Carnegie Mellon notent que l'algorithme développé détermine la direction de la voix (DoV) à l'aide d'un microphone.







DoV est différent de la détection de la direction d'arrivée (DoA).







Selon les chercheurs, l'utilisation de DoV rend possible des commandes ciblées, qui ressemblent au contact visuel des interlocuteurs lors du démarrage d'une conversation. Cependant, les caméras des appareils ne sont pas impliquées. Ainsi, il existe une interaction naturelle avec différents types d'appareils sans confusion.



Entre autres, la technologie réduira le nombre d'activations accidentelles des assistants vocaux, qui sont en veille tout le temps.



La nouvelle technologie audio est basée sur les caractéristiques de la propagation du son de la parole. Si la voix est dirigée vers le microphone, elle est dominée par les basses et les hautes fréquences. Si la voix est réfléchie, c'est-à-dire initialement dirigée vers un autre appareil, il y aura une diminution notable des hautes fréquences par rapport aux basses.



L'algorithme analyse égalementpropagation du son dans les 10 premiÚres millisecondes. Il existe deux scénarios possibles: L'



utilisateur est face au microphone. Le signal qui arrive en premier au microphone sera clair par rapport aux autres signaux réfléchis par d'autres appareils de la maison.

L'utilisateur est détourné du microphone. Toutes les vibrations sonores seront dupliquées et déformées.



L'algorithme mesure la forme du signal, calcule le pic de son intensité, le compare à la valeur moyenne et détermine si la voix était dirigée vers le microphone ou non.



En mesurant la propagation de la voix, les scientifiques ont pu dĂ©terminer avec une prĂ©cision de 93,1% si l'orateur se trouvait ou non devant un microphone particulier. Ils ont notĂ© qu'il s'agissait du meilleur rĂ©sultat de ce type Ă  ce jour et d'une Ă©tape importante vers la mise en Ɠuvre de la solution dans les appareils existants. En essayant de dĂ©terminer l'un des huit angles sous lesquels une personne regarde l'appareil, une prĂ©cision de 65,4% a Ă©tĂ© obtenue . Cela ne suffit toujours pas pour une application, dont l'essence est une interaction active avec les utilisateurs.



Pour collecter des informations, les ingénieurs ont utilisé Python, les signaux ont été traités sur la base de l'algorithme de classification Extra-Trees.



Les donnĂ©es et l'algorithme collectĂ©s lors du dĂ©veloppement sont ouverts Ă  GitHub . Ils peuvent ĂȘtre utilisĂ©s lors de la crĂ©ation de votre propre assistant vocal.






All Articles