📆 📪 👨‍❤️‍👨 Comment les ensembles de données accumulent le racisme et le sexisme 👃🏻 👨🏿‍🎨 👩🏽‍🤝‍👨🏻

Les algorithmes d'apprentissage automatique pour les images et le texte présentent régulièrement des préjugés raciaux et sexistes. Un exemple récent est le blocage du bot Facebook sud-coréen Lee Luda , qui «déteste» les membres des minorités sexuelles et les Afro-Américains. Le problème est plus profond qu'il n'y paraît. Lors de la création d'ensembles de données pour l'apprentissage automatique, les gens traduisent (consciemment ou non) en eux nombre de leurs propres préjugés, qui guident ensuite les algorithmes.

Racisme programmé

Les données de photo de visage sont la base des systèmes de vision par ordinateur. Ces ensembles sont souvent étiquetés en fonction de la race des individus dans un ensemble de données particulier. Cependant, en réalité, la race est un concept abstrait et vague. Lors de la création de catégories, peu d'attention est accordée à la validité, à la structuration et à la stabilité de ces informations. Cela signifie que les personnes formant des ensembles de données ont la possibilité de manifester consciemment ou inconscient du racisme lors de la formation des ensembles de données.

Des chercheurs de l'Université du nord-est du Massachusetts, Zayed Han et Yun Fu, ont examiné les balises faciales dans les ensembles de données dans le contexte des catégories raciales. Les scientifiques affirmentque les balises ne sont pas fiables car elles codent systématiquement les stéréotypes raciaux. Certains ensembles de données utilisent des caractéristiques trop vagues telles que «Inde / Asie du Sud» ou «personnes ayant des ancêtres originaires de pays d'Afrique, d'Inde, du Bangladesh, du Bhoutan et d'autres pays». Et parfois, des étiquettes sont utilisées et peuvent être interprétées comme offensantes - par exemple, «mongoloïde».

Les chercheurs écrivent que l'ensemble standard de catégories raciales couramment utilisé (asiatique, noir, blanc) est incapable de représenter un nombre significatif de personnes. Par exemple, ce régime exclut les peuples amérindiens. On ne sait pas quelle étiquette apposer sur les centaines de millions de personnes vivant au Moyen-Orient ou en Afrique du Nord. Un autre problème découvert est que les gens perçoivent différemment l'identité raciale de certains individus. Par exemple, dans un ensemble de données, les Coréens étaient considérés comme plus asiatiques que les Philippins.

Il est théoriquement possible d'élargir le nombre de catégories raciales, mais elles seront incapables de décrire, par exemple, le métis. L'origine nationale ou ethnique peut être utilisée, mais les frontières nationales sont souvent le résultat de circonstances historiques qui ne reflètent pas des différences d'apparence. En outre, de nombreux pays sont racialement hétérogènes.

Les chercheurs préviennent que les préjugés raciaux peuvent être multipliés et renforcés s'ils ne sont pas traités. Les algorithmes de reconnaissance faciale sont sensibles à divers biais. Les ensembles de données doivent avoir autant de races correctement décrites que possible pour éviter toute discrimination. Tous les groupes ethniques devraient être représentés dans le monde numérique, quelle que soit leur taille.

Sexisme programmé

Quant aux algorithmes de génération de textes et d'images, ils peuvent également diffuser des croyances erronées. En un sens, ils sont la personnification de l'inconscient collectif Internet. Les idées négatives sont normalisées dans le cadre des algorithmes d'apprentissage.

Les chercheurs Ryan Steed et Eileen Caliscan ont mené une expérience - ils ont téléchargé des photographies de visages d'hommes et de femmes vers des services qui ajoutent des images recadrées. Dans 43% des cas, l'algorithme offrait aux hommes un costume d'affaires. Pour les femmes dans 53% des cas, l'algorithme a généré un haut ou un costume avec un décolleté profond.

En 2019, le chercheur Keith Crawford et l'artiste Trevor Paglen ont découvertque les balises dans ImageNet, le plus grand ensemble de données pour la formation de modèles de vision par ordinateur, contiennent des mots offensants. Par exemple, «salope» et noms de course incorrects. Le problème est que ces ensembles de données sont basés sur des données d'Internet, où circulent de nombreux stéréotypes sur les personnes et les phénomènes.

Les chercheurs soulignent que les images sont des données très floues, chargées de nombreuses significations ambiguës, de questions insolubles et de contradictions. Et les développeurs d'algorithmes d'apprentissage automatique sont confrontés à la tâche d'étudier toutes les nuances de la relation instable entre images et valeurs.

Besoin de plus de photos

Les chercheurs Deborah Raji et Genevieve Fried ont examiné 130 ensembles de données de visage (FairFace, BFW, RFW et LAOFIW) collectés sur 43 ans. En fait, à mesure que davantage de données augmentaient, les gens ont progressivement cessé de demander le consentement pour utiliser leurs images pour les utiliser dans des ensembles de données.

Cela a abouti à des ensembles de données comprenant des photos de mineurs, des photos avec des descriptions racistes et sexistes et des images de mauvaise qualité. Cette tendance peut expliquer la raison pour laquelle la police arrête régulièrement des personnes par erreur sur la base des données de reconnaissance faciale.

Au début, les gens se méfiaient beaucoup de la collecte, de la documentation et de la vérification des données faciales, mais aujourd'hui, personne ne s'en soucie plus. «Vous ne pouvez tout simplement pas suivre un million de visages. Après un certain moment, vous ne pouvez même plus prétendre avoir le contrôle. Nous recueillons des informations privées d'au moins des dizaines de milliers de personnes, ce qui en soi est à l'origine du préjudice. Et puis nous accumulons toutes ces informations que vous ne pouvez pas contrôler pour construire quelque chose qui est susceptible de fonctionner d'une manière que vous ne pouvez même pas prédire », explique Deborah Raji.

Par conséquent, vous ne devriez pas penser aux algorithmes et aux données d'apprentissage automatique comme des entités qui classifient objectivement et scientifiquement le monde. Ils sont également soumis à des préjugés politiques, idéologiques, raciaux et à une évaluation subjective. Et à en juger par l'état des ensembles de données volumineux et populaires, c'est la règle, pas l'exception.

Blog ITGLOBAL.COM - Managed IT, clouds privés, IaaS, services de sécurité de l'information pour les entreprises:

Comment les ensembles de données accumulent le racisme et le sexisme

Racisme programmé

Sexisme programmé

Besoin de plus de photos

More articles: