Le dernier mois de l'année ne peut pas être qualifié de bon moment pour les annonces à grande échelle, car la plupart passent en mode «allons-y après les vacances», mais à en juger par cette riche collection dans le domaine de l'apprentissage automatique, les travaux battaient leur plein en décembre. Par conséquent, avec un léger retard, veuillez répondre au douzième numéro du résumé, dans lequel nous vous parlerons de la chose la plus importante qui s'est produite dans le ML à la fin de 2020.
MuZero
DeepMind a publié de manière inattendue un article sur MuZero , un algorithme qui peut jouer à la fois à des jeux de plateau de logique populaires comme les échecs, Shogi and Go, et à des jeux vidéo Atari comme Pac-Man.
MuZero essaie de modéliser non pas l'ensemble de l'environnement, mais uniquement certains aspects importants pour le processus de prise de décision stratégique de l'agent. L'algorithme recueille en permanence des informations sur l'état actuel et précédent du jeu, étudiant ainsi les interdictions et les récompenses. Ainsi, par exemple, le modèle comprend que dans les échecs, le but du jeu est d'échec et mat, et dans pakman, c'est de manger le point jaune.
Il y a un autre avantage important: MuZero réutilise le modèle appris pour améliorer la planification, plutôt que pour collecter de nouvelles données sur l'environnement. Par exemple, dans les jeux Atari avec un environnement changeant complexe, l'algorithme a utilisé le modèle appris 90% du temps pour replanifier ce qui aurait dû être fait dans les sessions de jeu précédentes.
Pourquoi c'est important. Essentiellement, MuZero est un modèle polyvalent qui peut être utilisé pour résoudre des problèmes complexes du monde réel difficiles à réduire à de simples règles. DeepMind offre une telle analogie - la nouvelle approche est similaire à la façon dont une personne par temps nuageux décide de prendre un parapluie pour rester au sec, tandis que les approches précédentes tentaient de modéliser l'ordre dans lequel les gouttes de pluie tomberaient.
Nature infinie
Tout le monde a vu au moins une fois une séquence spectaculaire de drone voler le long de la côte pittoresque. Un algorithme formé sur des vidéos similaires à partir de YouTube synthétise la vidéo à partir d'une image statique.
La tâche est très difficile, car il est nécessaire de générer de nouvelles images, qui peuvent être très différentes des données d'entrée - la photo contient souvent des arbres et des rochers qui obscurcissent les fragments du paysage situés derrière eux.
La nouveauté de l'approche est qu'elle est capable de synthétiser des images en tenant compte de la géométrie de la scène, qui couvre de grandes distances sur des centaines d'images. L'ensemble de données est déjà disponible , mais le code source devra attendre.
Rephotographie du voyage dans le temps
Un réseau de neurones pour la restauration et la colorisation d'anciennes photos, rappelant DeOldify. Contrairement aux filtres de restauration d'image conventionnels, qui appliquent des opérations indépendantes telles que la réduction du bruit, la coloration et la mise à l'échelle, StyleGAN2 est utilisé ici pour synthétiser un visage proche de l'original. En conséquence, les portraits sont obtenus immédiatement en couleur et avec une bonne résolution. Le code devrait également être déployé plus tard.
pi-GAN
Un autre modèle GAN qui génère une représentation 3D d'un objet à partir de plusieurs images 2D non allouées. La démo montre comment le modèle peut être utilisé pour faire pivoter la tête, similaire à ce que Nvidia a précédemment démontré dans Maxine.
Champs de flux de scène neuronale
Une nouvelle méthode NeRf qui construit une représentation de scène dynamique à partir d'une vidéo capturée avec une caméra conventionnelle. Cela permet, par exemple, de figer le cadre et de déplacer la caméra, ou vice versa pour fixer la caméra, mais comme pour rembobiner le temps. L'algorithme dessine un environnement avec une structure complexe, par exemple, avec des objets fins comme des treillis et des objets en mouvement comme des bulles de savon.
YolactEdge
La première méthode de segmentation d'image instantanée qui fonctionne en temps réel sur les appareils faibles. Le code source est déjà disponible .
ModNet
Une technologie qui vous permet non seulement de supprimer qualitativement l'arrière-plan des portraits, mais également de remplacer l'arrière-plan par une vidéo. En fait, cela peut être un bon remplacement pour une clé de chrominance. Contrairement au remove.bg payant, il existe également un code source , une collaboration et même une application Web avec une interface simple, dans laquelle vous ne pouvez tester que le travail avec des photos.
Svoice
Facebook a enfin publié le code source d'un algorithme qui détecte les voix de plusieurs personnes qui parlent sur des enregistrements audio.
Hypersim
Apple a publié un ensemble de données avec des masques de segmentation pour les fausses scènes. Près de deux téraoctets de rendu de salle à ultra-haute résolution. Le marquage des données est ici au niveau des pixels individuels.
ArtLine
Un modèle ouvert qui transforme un portrait photographique en croquis au crayon. Jusqu'à présent, il ne supporte pas bien les textures des vêtements et les ombres, mais en général, il donne des résultats décents. Il est basé sur l'architecture DeOldify, qui permet une bonne reconnaissance faciale.
C'est tout, décembre s'est avéré si étonnamment intense. Le début d'année s'annonce également intéressant. Nous avons hâte de voir ce qui se passe en janvier sur la base de Dall-E d'OpenAI. Comme on dit, restez à l'écoute!