Articles sélectionnés sur l'apprentissage automatique: études de cas, guides et recherches de septembre 2020
Nous commencerons notre sélection de septembre par une étude de cas. Cette fois, il n'en est qu'un, mais quel!
Nous ne cessons jamais d'admirer les possibilités de GPT-3 et de parler des domaines de son application, mais beaucoup voient en même temps dans l'algorithme une menace pour leur profession.
Ils ont intégré l'algorithme dans leur éditeur visuel afin que les utilisateurs puissent choisir entre les textes générés et écrits. Jusqu'à présent, le service vous permet uniquement de générer des titres, des descriptions de produits et de services et des boutons d'appel à l'action.
Pourquoi est-ce si intéressant?Le fait est que dans la gestion des produits et le marketing, beaucoup de ressources sont consacrées à tester des hypothèses. Quel titre augmentera le mieux l'engagement, ou quelle couleur et quelle forme le bouton devrait être pour que le client entreprenne l'action ciblée. Les réponses à ces questions permettent aux produits de réussir.
Le résultat de cette confrontation particulière ne résoudra encore rien, mais imaginez si l'algorithme pourrait non seulement générer des textes, mais aussi suivre le comportement des utilisateurs et modifier l'interface. Rappelez-vous maintenant que GPT-3 peut composer et créer des composants de réaction. C'est pourquoi il est très intéressant de suivre cette expérience. Au moment d'écrire ces lignes, GPT-3 est en tête par une petite marge, voyons comment tout cela se termine.
Et maintenant au reste des trouvailles du mois dernier:
Le modèle génère des mouvements des lèvres pour la parole, synchronisant ainsi les flux audio et vidéo. Il peut être utilisé pour les diffusions en ligne, les conférences de presse et le doublage de films. Sur la démo, vous pouvez voir comment les lèvres de Tony Stark s'adaptent au doublage dans différentes langues. De plus, si la connexion se détériore pendant les appels Skype, le modèle peut générer des trames perdues en raison d'une défaillance du signal et les dessiner en fonction du flux audio. Les créateurs suggèrent également d'animer les lèvres des personnages mèmes pour plus de personnalisation du contenu. Comme les haut-parleurs numériques, ce modèle est capable d'ajuster le mouvement des lèvres à la parole générée à partir du texte.
Il est à noter qu'en mai les auteurs ont publié le modèle Lip2Wav, qui au contraire «lit les lèvres» et génère du texte et du son. Un réseau neuronal convolutif extrait des caractéristiques visuelles, après quoi un décodeur de parole génère un spectrogramme à la craie basé sur celles-ci, et une voix est synthétisée à l'aide d'un vocodeur.
Nouvel algorithme d'augmentation vidéo qui supprime les filigranes et les objets en mouvement entiers, et élargit également le champ de vision vidéo, en tenant compte du mouvement de l'image. Comme d'autres algorithmes similaires, il détecte et restaure d'abord les bords des objets en mouvement. Dans ce cas, les bordures dessinées ne semblent pas naturelles dans la scène. La particularité de la méthode est qu'elle suit cinq types de pixels non localement adjacents, c'est-à-dire situés sur des images différentes, puis détermine lesquels d'entre eux peuvent être fiables et utilise ces données pour restaurer les zones manquantes. Le résultat est une vidéo plus fluide. Le code source est déjà disponible et la collab sera bientôt ajoutée.
Le réseau neuronal a été formé sur une série d'images d'une scène avec des coordonnées marquées de l'angle de vue, des horodatages et des paramètres d'éclairage. Elle a donc appris à interpoler ces paramètres et à afficher des images intermédiaires. Autrement dit, après avoir reçu plusieurs images avec un glaçon fondant progressivement ou un verre vide à l'entrée, le modèle en temps réel peut générer des images en tenant compte de toutes les combinaisons possibles de paramètres. Pour mieux comprendre de quoi il s'agit, nous vous conseillons de simplement regarder la démo vidéo . Le code source devrait être publié prochainement.
Un autre outil pour supprimer des objets de photos basé sur un réseau neuronal génératif. Cette fois, il s'agit d'un framework open source à part entière etAPI publique . Cela fonctionne très simplement - chargez l'image et dessinez le masque de l'objet que vous souhaitez supprimer, et - terminé, aucun post-traitement supplémentaire. Le projet est déployé sur un serveur Web , vous pouvez donc le tester facilement directement dans le navigateur. Il y a des artefacts, bien sûr, mais cela se débrouille bien avec des images simples.
portrait Les photos de portrait souffrent souvent d'un éclairage inapproprié. La position et la douceur des ombres et la répartition de la lumière sont des contraintes environnementales qui affectent la qualité esthétique de l'image. L'éditeur de photos n'est plus nécessaire pour supprimer les ombres indésirables - Les chercheurs de Berkeley dévoilent un algorithme open sourcequi supprime de manière réaliste l'ombrage de la photo et vous permet de contrôler l'éclairage.
Une tâche tout aussi courante lorsque l'on travaille avec des photographies est leur restauration et l'amélioration de la qualité. Cet outil open source fait un très bon travail de mise à l'échelle des portraits.
Plusieurs outils de modélisation 3D intéressants sont sortis ce mois-ci. Tous ceux qui ont travaillé avec la 3D savent que pour créer des modèles de haute qualité, vous avez besoin de divers équipements photographiques coûteux et de la capacité d'utiliser des logiciels complexes. Mais les algorithmes d'apprentissage automatique sont activement utilisés pour faciliter la tâche des artistes dans ce domaine.
Facebook AI a introduit un système de création de maquettes 3D des mains et du corps basé sur l'analyse de la vidéo monoculaire. La capture de mouvement fonctionne en temps quasi réel (9,5 images par seconde) et crée des images 3D du corps et des mains sous la forme d'un modèle paramétrique unifié. Contrairement à d'autres approches existantes, celle-ci vous permet de capturer simultanément les gestes de la main et les mouvements de tout le corps. Le code source est déjà disponible.
Une autre technologie de Facebook AI, qui est également conçue pour simplifier le processus de modélisation 3D - le réseau de neurones extrait de nombreuses connexions entre la personne dans l'image et d'autres objets et génère des maquettes en trois dimensions. Ainsi, sur la base d'une seule photographie, qui représente une personne avec un objet du quotidien, un modèle 3D est créé. L'algorithme détermine les formes des personnes et des objets, ainsi que leur localisation spatiale dans des conditions naturelles, dans un environnement incontrôlé. Les créateurs promettent de publier le code source prochainement, il reste donc à croire que les exemples de la démo, qui, ne soyons pas rusés, sont impressionnants.
Le nouveau cadre vous permet de créer et d'animer des objets 3D à l'aide d'une seule esquisse. Cela simplifie considérablement le processus d'animation des objets, car vous n'avez pas besoin de travailler avec des images clés, un maillage multi-angle et une animation squelettique. Le modèle crée un modèle tridimensionnel, qui est immédiatement prêt à créer des animations sans un long réglage préalable de divers paramètres, qui, par exemple, ne permettent pas aux objets de se traverser.
L'algorithme crée des modèles tridimensionnels de meubles à partir de parallélépipèdes rectangulaires. L'approche ShapeAssembly tire parti des atouts des modèles procéduraux et génératifs profonds: le premier capture un sous-ensemble de la variabilité de forme qui peut être interprété et édité, et le second capture la variabilité et les corrélations entre les formes qui sont difficiles à exprimer de manière procédurale. Le réseau plaisante déjà en disant que la prochaine étape consiste à former l'embedder en suivant les instructions d'IKEA.
Ceci conclut le sujet avec la modélisation 3D - pour ce domaine, le mois s'est avéré particulièrement intense. Merci de votre attention!