chercheurs de l'Université de Tübingen ont formé un réseau de neurones pour reconnaître les images , puis ont demandé d'indiquer quelles parties des images étaient les plus importantes pour prendre une décision. Lorsqu'ils ont demandé au réseau de neurones de mettre en évidence les pixels les plus importants pour la catégorie des tanches (espèces de poissons), c'est ce qu'il a mis en évidence:
des doigts humains roses sur fond vert.
Doigts humains sur fond vert!
Pourquoi cherchait-elle des doigts sur les photos alors qu'elle devait chercher des poissons? Il s'est avéré que la plupart des images de tanches de l'ensemble de données étaient des images de personnes tenant du poisson comme trophée. Elle n'a pas de contexte pour ce qu'est vraiment la tanche, alors elle suppose que les doigts font partie du poisson.
Le réseau de neurones générant des images dans ArtBreeder ( BigGAN ) a été formé sur le même jeu de données ImageNet, et lorsque vous lui demandez de générer une ligne, il fait la même chose:
quatre images sont des blancs tenant quelque chose de vert et de moucheté. Dans certaines images, la chose verte a une texture plus louche, mais nulle part il n'y a une tête et une queue claires. C'est juste un gros corps de poisson. Les nageoires inférieures sont intimement mélangées avec de nombreux doigts humains roses
Les humains sont beaucoup plus articulés que les poissons et je suis fasciné par les doigts humains très exagérés.
Il existe d'autres catégories sur ImageNet avec des problèmes similaires. Voici un microphone.
Quatre images avec un fond très sombre. Le coin supérieur gauche est de forme similaire à un microphone avec un déflecteur sonore moelleux ou une tête en cheveux humains gris. D'autres ressemblent à des personnes Le
réseau de neurones a reconnu l'éclairage contrasté de la scène et la forme humaine, mais de nombreuses images ne contiennent rien qui ressemblerait à distance à un microphone. Dans de nombreuses photos du kit de formation, le microphone est une infime partie de l'image qui peut être facilement négligée. Des problèmes similaires se posent avec de petits instruments tels que la «flûte» et le «hautbois».
Dans d'autres cas, il est prouvé que les photographies sont mal étiquetées. Dans ces images générées du "casque de football", certaines représentent clairement des personnes ne portant pas de casque, et d'autres ressemblent étrangement à des casques de baseball.
Quatre images générées. Les deux premiers sont des personnes, dont aucun ne porte de casque de football (bien que leurs cheveux puissent être un peu bizarres; difficile à dire car les autres sont aussi si étranges). En bas à gauche, un homme porte un casque qui ressemble à une balle de baseball en métal. En bas à droite ... en bas à droite - un casque de football croisé avec un poisson de dessin animé à pleines dents
ImageNet est un ensemble de données vraiment désordonné. Il a une catégorie pour un agama, mais pas pour une girafe. Au lieu d'un cheval en tant que catégorie, il y a l'oseille (une couleur spécifique d'un cheval). Le vélo pour deux est une catégorie, mais pas le skateboard.
Quatre images qui sont clairement une sorte d'objets de bicyclette à plusieurs roues. Les roues ont tendance à être flexibles avec des rayons étrangement divisés, et parfois les roues se desserrent. Il y a des gens qui ressemblent à des cyclistes, mais il est difficile de les séparer des vélos La
principale raison de la pollution ImageNet est que la base de données est automatiquement collectée sur Internet. Les images étaient censées être filtrées par les travailleurs crowdsourcing qui les ont tagués, mais de nombreuses bizarreries ont fui. Et terriblement grandle nombre d'images et de balises qui n'auraient certainement pas dû apparaître dans l'ensemble de données de recherche général, et des images qui semblent y être arrivées sans le consentement des personnes représentées. Après plusieurs années d'utilisation généralisée par la communauté de l'IA, l'équipe ImageNet aurait supprimé une partie de ce contenu. D'autres ensembles de données problématiques, tels que ceux collectés à partir d'images en ligne sans autorisation ou à partir de caméras de surveillance, ont également été récemment supprimés (d'autres, comme Clearview AI, sont toujours utilisés ).
Vinay Prabhu et Ababa Birhane ont signalé de graves problèmes avec un autre ensemble de données cette semaine , 80 millions d'images minuscules... Le système a découpé les images et les a automatiquement étiquetées à l'aide d'un autre réseau neuronal formé sur le texte Internet. Vous pourriez être choqué, mais il y a des choses assez offensantes dans le texte Internet. Le MIT CSAIL a supprimé définitivement cet ensemble de données, choisissant de ne pas filtrer manuellement les 80 millions d'images.
Ce n'est pas seulement un problème avec de mauvaises données , mais avec un système dans lequel de grandes équipes de recherche peuvent publier des ensembles de données avec d'énormes problèmes tels que le langage offensant et le manque de consentement pour prendre des photos. Comme l'a dit l'éthicienne de la technologie Shannon Vallor , «Pour toute institution qui fait de l'apprentissage automatique aujourd'hui," nous ne savions pas "n'est pas une excuse, mais une reconnaissance." Commel'algorithme qui a transformé Obama en homme blanc , ImageNet est un produit de la communauté d'apprentissage automatique où il y a un énorme manque de diversité (avez-vous remarqué que la plupart des personnes générées sur ce blog sont blanches? Si vous ne l'avez pas remarqué, cela pourrait être dû au fait qu'un grand une partie de la culture occidentale considère le blanc comme couleur par défaut).
Il faut beaucoup de travail pour créer le meilleur ensemble de données - et mieux comprendre quels ensembles de données ne devraient jamais être créés. Mais ce travail en vaut la peine.
Voir également: