•  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Cet algorithme peut générer une vidéo à partir d’une seule photo

Trois rangées de photos. La première contient des photos de Marilyn Monroe, la seconde des photos d'Albert Einstein et la troisième des photos de Fedor Dostoïevski.
À gauche, les photos de référence. À droite, des images produites à l'aide de l'algorithme en se servant du visage d'autres personnes. Photo: Samsung AI Center
Radio-Canada

Des chercheurs de Samsung ont conçu un algorithme capable de générer des vidéos d'une personne à partir d'une seule photo. Une avancée qui suscite des craintes de détournement à des fins malveillantes.

D’après les chercheurs (Nouvelle fenêtre) du Centre d’intelligence artificielle de Samsung à Moscou, le système a besoin de deux éléments pour fonctionner : au moins une image source de la personne à imiter et une vidéo de l’imitateur.

Dans les exemples fournis par Samsung, on peut par exemple voir un autoportrait de Frida Kahlo prendre vie et reproduire les mouvements d’une personne filmée en train de parler. D’autres exemples montrent le même genre d’exploit avec la Joconde de Léonard de Vinci ou encore avec le visage de David Beckham.

Un système bien entraîné

Les systèmes de ce genre requièrent habituellement de grandes quantités de données pour produire des résultats réalistes. Idéalement, le système doit avoir accès à des images montrant plusieurs angles du visage de la personne à imiter pour être capable de générer des mouvements convaincants.

La particularité du système conçu par Samsung est qu’il a comparativement besoin de très peu de données pour fonctionner convenablement. Une seule photo suffit pour produire une vidéo d’une qualité relativement bonne et une trentaine d’images permettent d’améliorer la séquence finale de façon significative.

Cela s’explique par le fait que l’algorithme se base sur une énorme banque de données contenant des vidéos de personnes en train de parler pour produire ses séquences. Les vidéos contenues dans la banque de données ont été classées dans différentes catégories selon leur façon de bouger.

Lorsqu’il génère une séquence, l’algorithme analyse les mouvements de l’imitateur et le compare à ces catégories de mouvement pour trouver celle à laquelle il correspond. Il compare également le visage de la personne à imiter à celles présentes dans sa banque de données pour essayer de trouver une ressemblance lui permettant de produire une séquence plus réaliste.

Désinformation et pornographie

Bien que cette technologie puisse être utile dans le domaine des jeux vidéo, des effets spéciaux et des communications, elle peut aussi servir à produire des vidéos à des fins malveillantes.

Des technologies moins puissantes du même genre, surnommées deepfakes, sont déjà utilisées pour générer des vidéos de désinformation. Des politiciens et des célébrités ont ainsi été imités par le passé pour donner l’impression qu’ils disaient des choses qu’ils n’ont jamais dites. Utilisé dans le cadre d’une élection, ce système pourrait avoir une incidence sur les résultats.

Comme cette technique nécessite habituellement de grandes quantités de photos ou de vidéos d’une personne pour fonctionner, elle est surtout utilisée pour imiter des personnalités publiques dont les images sont nombreuses et faciles à trouver.

L’arrivée de la technologie des deepfakes a d’ailleurs fait naître un genre pornographique du même nom sur le web, dans lequel le visage des actrices porno est remplacé par celui de célébrités. En créant un système capable de fonctionner à partir d’une seule photo, n’importe qui pourrait créer une vidéo pornographique à partir d’une photo disponible sur le web, ouvrant la porte à la vengeance pornographique à grande échelle.

Avec les informations de CNet, et ZDNet

Intelligence artificielle

Techno