Comme vous le savez, nous incluons toujours les publications les plus intéressantes sur le thème de l'apprentissage automatique dans la collection, et la priorité est donnée aux projets avec des référentiels non vides. Donc, février m'a plu avec un certain nombre de services à cet égard, alors commençons par eux. Aller:
Articles avec des ensembles de données et des bibliothèques
Il existe une telle ressource Papers with Code, dont la mission correspond directement au nom - agréger les publications du domaine de l'apprentissage automatique qui ont du code, ainsi que donner la possibilité d'offrir leur propre implémentation.
Ce mois-ci, ils ont lancé la section Jeux de données disponibles, qui a déjà indexé plus de 3000 ensembles de données de recherche. Dans le catalogue, vous pouvez rechercher des ensembles de données par fréquence de mentions, portée, type de données et langue prise en charge.
Ils ont également ajouté la possibilité de rechercher des modèles de classification d'images pré-entraînés qui peuvent être affinés sur vos propres ensembles de données. Pour le moment, il y en a déjà plus de 300 et le catalogue continuera de croître.
Recherche de modèles Google
Accessibilité: page de projet , référentiel
Le succès d'un réseau de neurones dépend souvent de l'étendue de son application à diverses tâches. Lors de la création d'un modèle, vous devez prendre un certain nombre de décisions architecturales complexes - la profondeur du réseau de neurones, les types de couches à utiliser, etc.
Google a présenté une plate-forme qui vous aidera à trouver la bonne architecture pour votre ensemble de données et votre tâche, ce qui réduira le temps de configuration et de codage et nécessitera moins de ressources de calcul.
La bibliothèque vous permet d'exécuter des algorithmes prêts à l'emploi sur vos données - quel que soit le domaine, sélectionnez automatiquement l'architecture optimale, les ensembles corrects de modèles ou les modèles distillés.
ZenML
Accessibilité: framework MLOps de site de projet / référentiel
qui simplifie le transfert des pipelines des ordinateurs portables vers les environnements de production. Reproductibilité garantie des expériences de formation grâce à la gestion des versions des données, du code et des modèles. La plate-forme vous permet également de basculer rapidement entre les environnements sur site et cloud, fournit des aides prêtes à l'emploi pour comparer et visualiser les paramètres et les résultats, mettre en cache les états du pipeline pour des itérations rapides, et bien plus encore.
TensorFlow 3D
Accessibilité: article / référentiel
Avec la prolifération d'appareils qui capturent des données 3D, tels que les lidars et les caméras de profondeur, le besoin de technologie pour traiter ces données et comprendre la scène 3D a augmenté. Cela est nécessaire pour naviguer et travailler dans le monde réel des voitures et des robots autonomes, ainsi que pour améliorer les technologies AR.
Google a dévoilé une bibliothèque modulaire pour appliquer l'apprentissage en profondeur aux données 3D dans TensorFlow. Il contient des pipelines de formation et d'évaluation pour la segmentation sémantique 3D, la classification de scènes, la détection d'objets 3D, etc.
MeInGame
Disponibilité: article / référentiel
Dans les jeux informatiques, il existe souvent un éditeur de personnages qui permet de modifier l'apparence du joueur en utilisant les réglages de divers paramètres. L'algorithme MeInGame vous permet de créer un personnage personnalisé avec une seule photo. Le réseau neuronal prédit la forme du visage et sa texture. Bien que les méthodes basées sur le modèle de visage morphable 3D (3DMM) puissent générer un portrait 3D à partir d'images individuelles, la topologie du maillage est généralement différente de celle utilisée dans la plupart des jeux. Les auteurs de cet algorithme affirment avoir résolu ce problème.
SAM
Accessibilité: article / référentiel
Simuler le vieillissement à partir d'une seule photographie d'un visage est extrêmement difficile, car il est nécessaire de simuler les changements de certains traits du visage et même de la forme de la tête, tout en conservant l'identité de la personne.
En interne, un StyleGAN est utilisé, mais ici les chercheurs utilisent également un réseau de régression d'âge pré-entraîné avec lequel l'encodeur génère des codes cachés correspondant à l'âge cible. La méthode traite le processus de vieillissement continu comme un problème de régression entre l'âge d'entrée et l'âge cible, fournissant un contrôle précis sur l'image générée. Le modèle vous permet de modifier les images générées.
VOGUE
Disponibilité: page du projet / démo interactive
Nouveau cas d'application StyleGAN pour l'ajustement virtuel de vêtements. L'algorithme transfère les vêtements d'une photographie d'une personne à une photographie d'une personne, qui est soumise à l'entrée. La méthode est basée sur l'interpolation de l'espace caché, en tenant compte de la pose de StyleGAN2, qui fonctionne avec la forme du corps, les cheveux, la couleur de la peau de la personne cible. L'algorithme permet au vêtement de se déformer selon une forme corporelle donnée, tout en conservant le motif et les détails de la matière. La sortie est des images photoréalistes à une résolution décente de 512x512.
NeRViS
Accessibilité: page de projet / référentiel
Les techniques de stabilisation vidéo existantes soit rognent sévèrement les limites de l'image, soit créent des artefacts et des distorsions. Cet algorithme
estime les champs de déformation denses et utilise des images adjacentes pour synthétiser une image stabilisée complète. La nouveauté de cette approche est la synthèse spatiale hybride basée sur l'apprentissage, qui supprime les artefacts causés par un flux optique imprécis et des objets en mouvement rapide.
Synthèse de vue stable
Disponibilité: article / référentiel
Basé sur un ensemble de photographies représentant une scène à partir de points de vue librement distribués, l'algorithme synthétise de nouvelles vues de la scène. La méthode fonctionne sur des échafaudages géométriques, qui sont calculés sur la base de la photogrammétrie SfM. La vue cible est rendue par un réseau convolutif à partir du tenseur de caractéristiques synthétisé pour tous les pixels.
L'article a été publié en novembre de l'année dernière, mais le code n'est devenu disponible que maintenant.
PuzzleGan
Accessibilité: article
Réseau neuronal génératif auto-supervisé formé pour résoudre des énigmes. En tant qu'entrée, le modèle accepte des parties de l'image situées au hasard et sans invites restaure l'image d'origine à partir d'elles, c'est-à-dire que le modèle ne sait pas ce qu'était l'image à l'origine.
CaractèreGAN
Disponibilité: article / référentiel Un
réseau de neurones génératif, qui peut être formé sur seulement quelques images d'un personnage dans différentes poses, pour générer de nouvelles poses en fonction de l'emplacement des points clés. Cela vous permet d'animer des images statiques. La nouveauté de l'approche est que l'image est divisée en couches, dont chacune est traitée séparément. Cela résout le problème des obstructions lorsqu'un objet étranger vient au premier plan. Pour plus de commodité, une interface graphique a été ajoutée qui vous permet d'ajuster manuellement les poses par points clés.
VAE discrète
Accessibilité: le référentiel
Dans le dernier numéro, nous avons parlé de l'incroyable DALL-E. Fin février, OpenAI a créé un référentiel avec le nom du modèle, mais le modèle lui-même n'a pas encore été publié - à l'intérieur seulement d'une partie du modèle, à savoir le package PyTorch pour VAE discrète. Il s'agit d'un autoencodeur variationnel qui, dans notre cas, génère des images à partir de descriptions textuelles.
Nostalgie profonde
Disponibilité: service en ligne
Et enfin, c'est toujours agréable lorsqu'un produit simple et compréhensible est fabriqué à partir de modèles. Ainsi, la société MyHeritage, qui s'occupe des questions de généalogie et d'ascendance, a apparemment pris l'algorithme du modèle du premier ordre, vissé une interface utilisateur pratique et fait un service sur sa base pour «animer» les photos.
Le résultat est des tonnes de contenu personnalisé généré et une énorme portée virale. Ils disent également que le business de l'IA est inutile.
C'est tout, merci de votre attention et à dans un mois!