💘 🙎 ☹️ Hé, Google: les appareils intelligents s'activeront sans commandes 🆖 🕷️ 👋🏼

Photo de Cristian Cristian sur Unsplash

Dans un proche avenir, il sera possible d'activer le haut-parleur vocal Amazon Echo ou Nest Audio, de rechercher dans Google ou Siri sur les appareils Apple sans un message d'accueil comme "Bonjour Google!" Avec l'aide de l' intelligence artificielle, des scientifiques américains ont développé un algorithme grâce auquel les assistants vocaux intelligents comprennent qu'une personne leur parle.

Dans une conversation ordinaire, les gens désignent le destinataire d'un message simplement en le regardant. Mais la plupart des appareils vocaux sont conçus pour être activés par des phrases clés que personne ne prononce dans une communication réelle. La compréhension des signaux non verbaux par les assistants vocaux rendrait la communication plus facile et plus intuitive. Surtout s'il y a plusieurs appareils de ce type dans la maison.

Les scientifiques de l'Université Carnegie Mellon notent que l'algorithme développé détermine la direction de la voix (DoV) à l'aide d'un microphone.

DoV est différent de la détection de la direction d'arrivée (DoA).

Selon les chercheurs, l'utilisation de DoV rend possible des commandes ciblées, qui ressemblent au contact visuel des interlocuteurs lors du démarrage d'une conversation. Cependant, les caméras des appareils ne sont pas impliquées. Ainsi, il existe une interaction naturelle avec différents types d'appareils sans confusion.

Entre autres, la technologie réduira le nombre d'activations accidentelles des assistants vocaux, qui sont en veille tout le temps.

La nouvelle technologie audio est basée sur les caractéristiques de la propagation du son de la parole. Si la voix est dirigée vers le microphone, elle est dominée par les basses et les hautes fréquences. Si la voix est réfléchie, c'est-à-dire initialement dirigée vers un autre appareil, il y aura une diminution notable des hautes fréquences par rapport aux basses.

L'algorithme analyse égalementpropagation du son dans les 10 premières millisecondes. Il existe deux scénarios possibles: L'

utilisateur est face au microphone. Le signal qui arrive en premier au microphone sera clair par rapport aux autres signaux réfléchis par d'autres appareils de la maison.

L'utilisateur est détourné du microphone. Toutes les vibrations sonores seront dupliquées et déformées.

L'algorithme mesure la forme du signal, calcule le pic de son intensité, le compare à la valeur moyenne et détermine si la voix était dirigée vers le microphone ou non.

En mesurant la propagation de la voix, les scientifiques ont pu déterminer avec une précision de 93,1% si l'orateur se trouvait ou non devant un microphone particulier. Ils ont noté qu'il s'agissait du meilleur résultat de ce type à ce jour et d'une étape importante vers la mise en œuvre de la solution dans les appareils existants. En essayant de déterminer l'un des huit angles sous lesquels une personne regarde l'appareil, une précision de 65,4% a été obtenue . Cela ne suffit toujours pas pour une application, dont l'essence est une interaction active avec les utilisateurs.

Pour collecter des informations, les ingénieurs ont utilisé Python, les signaux ont été traités sur la base de l'algorithme de classification Extra-Trees.

Les données et l'algorithme collectés lors du développement sont ouverts à GitHub . Ils peuvent être utilisés lors de la création de votre propre assistant vocal.

Hé, Google: les appareils intelligents s'activeront sans commandes

More articles: