•  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Une base de données qui enseigne des termes racistes et misogynes aux IA retirée du web

Un robot, l'air pensif.

Les algorithmes discriminatoires peuvent autant être le résultat des biais cognitifs de leurs créateurs et créatrices que des biais contenus dans des bases de données.

Photo : getty images/istockphoto / PhonlamaiPhoto

Radio-Canada

Le Massachusetts Institute of Technology (MIT) a retiré du web sa populaire base de données 80 Million Tiny Images après qu'il eut été découvert qu’elle pouvait associer des images de minorités visibles ou de femmes à des termes racistes ou misogynes.

Il a été porté à notre attention que la base de données Tiny Images contenait des termes péjoratifs et des images offensantes. Cela était une conséquence du processus automatisé de collecte de données, pouvait-on lire sur le site web de 80 Million Tiny Images (Nouvelle fenêtre) jeudi matin.

Maintenant une page blanche avec quelques lignes de texte, le site explique que la base de données contenant 80 millions de photos a été supprimée du web de manière définitive. Le MIT demande aux membres de la communauté de ne plus s’en servir et de supprimer toute copie de la base de données qui aurait été téléchargée.

Les biais, les images offensantes et la terminologie désobligeante aliènent une partie importante de notre communauté, composée précisément des gens que nous nous efforçons d’inclure, poursuit le message.

Comment c’est arrivé

Ce sont Binny Prabhu, scientifique en chef de l’entreprise en démarrage UnifyID, et Abeba Birhane, candidate au doctorat à la University College Dublin, qui ont informé le MIT du contenu problématique de sa base de données. Jeudi, le duo a rendu publique sa prépublication (étude pas encore évaluée par les pairs) qui se penche sur les biais des algorithmes.

Créée en 2008, Tiny Images servait à entraîner des algorithmes d’apprentissage machine spécialisés dans la détection d’objets. Elle était composée de 80 millions d’images tirées de moteurs de recherche qui avaient été associées à 75 000 mots puisés dans la base de données lexicale WordNet.

Concrètement, cela veut dire que si l’on présentait une photo d’une trottinette à algorithme, il était en mesure de l’identifier. Toutefois, des photos de personnes de couleur ou de femmes pouvaient être identifiées par des termes racistes ou misogynes.

Il s’agit d’un autre cas qui met en lumière les potentiels biais des algorithmes. Une étude du MIT a par exemple démontré en 2018 que le taux d’erreur d’algorithmes de reconnaissance faciale étaient bien plus élevées pour les femmes et les personnes de couleur, notamment parce que les bases de données comprenaient un taux disproportionné de photos d’hommes et de personnes blanches.

En 2016, un article de ProPublica démontrait que COMPAS, un outil d’intelligence artificielle très utilisé par les juges aux États-Unis pour calculer les risques de récidives des gens ayant commis un crime, surévaluait largement le risque de récidive des personnes noires et sous-estimait le risque de récidive des personnes blanches.

Les algorithmes discriminatoires peuvent autant être le résultat des biais cognitifs de leurs créateurs et créatrices que des biais contenus dans des bases de données.

Avec les informations de The Register

Vos commentaires

Veuillez noter que Radio-Canada ne cautionne pas les opinions exprimées. Vos commentaires seront modérés, et publiés s’ils respectent la nétiquette. Bonne discussion !

Intelligence artificielle

Techno