Comment les systèmes d'IA visent à simplifier l'ingénierie du son

Ce week-end, nous avons décidé de parler des développements de deux universités américaines, qui permettent de générer une échelle sonore suffisamment crédible pour les vidéos muettes.





Photo libre d'utiliser des sons / Unsplash



La tâche difficile du bruiteur



Les sons des films et des émissions de télévision - par exemple, le bruissement de la pluie - sont très difficiles à enregistrer correctement sur le plateau au moment du tournage d'un fragment particulier. Il y aura beaucoup de bruit parasite, des conflits avec les voix des acteurs et d'autres équipements sont possibles. Pour cette raison, presque tous les sons sont enregistrés séparément et mixés lors du montage. Les faiseurs de bruit font cela .



Si un film a besoin de reproduire le son d'une vitre cassée, les concepteurs sonores se rendent en studio et commencent à briser du verre dans des conditions acoustiques contrôlées. L'enregistrement est effectué jusqu'à ce que le son coïncide avec ce qui se passe à l'écran. Dans les cas particulièrement difficiles, cela peut nécessiter des dizaines d'itérations, ce qui complique et augmente le coût de la réalisation de films.



Les ingénieurs de l'Université du Texas ont suggéréOption alternative. Ils ont développé un système d'IA qui détecte ce qui se passe dans le cadre et suggère automatiquement une échelle.



Comment ça fonctionne



Les ingénieurs ont décrit le fonctionnement du système dans leur travail pour l'IEEE ( PDF ). Ils ont conçu deux modèles d'apprentissage automatique. Le premier extrait les caractéristiques des images du métrage - par exemple, la couleur. Le deuxième modèle analyse le mouvement d'un objet dans différents cadres et détermine sa nature afin de sélectionner le son approprié.



Pour la formation de la série acoustique, les ingénieurs ont développé le programme AutoFoley. Il génère un nouveau son basé sur des milliers de courts échantillons audio - avec le bruit de la pluie, le tic-tac d'une horloge, un cheval au galop. Le résultat du travail est assez convaincant:





Malheureusement, le système a jusqu'à présent un certain nombre de limitations sérieuses. Il convient au traitement des enregistrements dans lesquels le son ne doit pas correspondre parfaitement à la vidéo. Sinon, la désynchronisation devient perceptible - comme dans cette vidéo . De plus, l'objet doit être constamment présent dans le cadre pour que le modèle MO puisse le reconnaître. Maintenant, les développeurs sont engagés dans l'enregistrement des brevets, mais ils prévoient ensuite de corriger les failles.



Qui d'autre est impliqué dans de tels projets



En 2016, des experts du MIT et de Stanford ont présenté un modèle d'apprentissage automatique capable d'exprimer une vidéo silencieuse. Il prédit le son en fonction d'une propriété d'un objet dans le cadre - par exemple, son matériau. À titre expérimental, les ingénieurs ont téléchargé une vidéo sur le système dans laquelle une personne frappe un bâton de tambour sur diverses surfaces: métal, terre, herbe et autres.





Les développeurs ont évalué l'efficacité de l'algorithme à l'aide d'une enquête en ligne. Les plus réalistes étaient les sons des feuilles et de la saleté (ils étaient considérés comme réels par 62% des répondants), et le moins - le bois et le métal. Le métal ne semblait naturel que 18% du temps.



Ce système doit également être amélioré. Il génère des sons qui se produisent lorsque des objets entrent en collision, mais ne peut pas recréer le réseau acoustique pour le bruit du vent. De plus, l'algorithme échoue si les objets se déplacent trop vite. Malgré cela, de telles solutions ont le potentiel - elles peuvent simplifier le travail des faiseurs de bruit et transformer l'industrie cinématographique.






« Hi-Fi»:



:

?

«, , »: ,

, :

«»:







All Articles