•  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Des visages reconstitués à partir de la voix

Des résultats obtenus par Speech2Face.

Des résultats obtenus par Speech2Face.

Photo : Speech2Face

Alain Labelle

Recréer la configuration générale du visage d'une personne à partir d'un court enregistrement audio est maintenant possible grâce aux expériences d'ingénieurs américains, mais il reste encore du travail à accomplir afin de préciser cette percée de l’apprentissage-machine. Explications.

Qui n’a pas tenté d’imaginer l’apparence d’une personne inconnue lors d’une conversation téléphonique, et dans quelle mesure peut-on réellement déduire son apparence à partir de la façon dont elle parle?

Les ingénieurs informatiques Tae-Hyun Oh, Wojciech Matusik et leurs collègues du laboratoire de science informatique et d’intelligence artificielle du MIT se sont intéressés à cette question et ont créé Speech2Face, un réseau d’apprentissage profond qui se nourrit de millions de vidéos éducationnelles disponibles dans YouTube.

Cette base de données a permis à Speech2Face de créer des corrélations statistiques entre des visages et des voix pour ensuite produire, à partir d’une bande audio, des images de visages humains reproduisant divers attributs généraux des locuteurs tels que l'âge, le sexe ou l'origine ethnique.

Des visages réels et reconstitués.

Les visages réels apparaissent à gauche, et les reconstitués à droite.

Photo : Speech2Face

Encore beaucoup de travail

Pour l’heure, l’intelligence artificielle (IA) ne permet pas de générer précisément le visage d’un individu uniquement à partir de sa voix, puisque l’algorithme se base sur un ensemble de caractéristiques partagées par un ensemble de personnes.

« L’algorithme ne peut produire que des visages génériques sans traits spécifiques », expliquent les auteurs.

Les expériences menées à ce jour montrent que les interprétations de Speech2Face restent imparfaites, et certains résultats ne concordent pas du tout avec la réalité. Par exemple, lorsque l’IA écoutait un extrait audio d’un homme asiatique parlant mandarin, la machine produisait un visage asiatique. Toutefois, lorsque le même homme parlait en anglais dans un autre clip audio, l'IA a généré le visage d'un homme blanc.

En outre, l'algorithme a également grandement associé les voix graves aux visages masculins, et les voix aiguës aux visages féminins. Selon les chercheurs, ces erreurs pourraient être liées au fait que la banque de données utilisée pour créer Speech2Face, notamment des vidéos éducatives de YouTube, ne représente pas l'ensemble de la population mondiale.

Considérations éthiques

Quelques personnes qui apparaissaient dans des vidéos YouTube utilisées par l’algorithme ont été surprises d’apprendre que leur visage avait été intégré dans l'étude.

Le recours à cette technologie soulève donc certaines questions éthiques, notamment liées au respect de la vie privée et à la discrimination.

« Bien qu’il s’agisse d’une recherche universitaire, nous estimons qu’il est important de discuter explicitement d’un ensemble de considérations éthiques, en raison de la sensibilité potentielle des informations faciales », ont reconnu les ingénieurs lorsqu’ils ont présenté l’état de leurs recherches (Nouvelle fenêtre) la semaine dernière au cours d’une rencontre consacrée à l’apprentissage-machine, à la vision par ordinateur et à la reconnaissance de formes qui se tenait à Long Beach, en Californie.

Reste qu’une telle percée pourrait être peaufinée et permettre éventuellement de créer, par exemple, des portraits-robots plus détaillés de suspects dans des affaires criminelles.

Intelligence artificielle

Science