Des chercheurs ont mis au point un nouvel outil, alimenté par l’intelligence artificielle, qui peut créer des vidéos de discours d’apparence réaliste à partir de n’importe quel clip audio. Ils ont fait la démonstration de cette technologie en synthétisant quatre vidéos artificielles de Barack Obama prononçant les mêmes paroles.
L’outil n’est pas destiné à créer une avalanche de “fake news” et à faire dire des choses fausses aux gens. Il a été conçu en partie comme un moyen de repérer les faux et les vidéos qui ne sont pas ce qu’elles semblent être.
Selon l’équipe de l’université de Washington, dès lors qu’il existe une source audio, la vidéo peut inclure des formes de bouche réalistes, presque parfaitement alignées sur les mots prononcés. Ces formes synthétisées peuvent ensuite être greffées sur une vidéo existante d’une personne qui parle.
“Ce type de résultats n’a jamais été montré auparavant”, explique l’un des chercheurs, Ira Kemelmacher-Shlizerman. “La conversion audio-vidéo réaliste a des applications pratiques, comme l’amélioration des vidéoconférences pour les réunions, mais aussi futuristes, comme la possibilité de tenir une conversation avec un personnage historique en réalité virtuelle.”
“C’est le genre de percée qui permettra de franchir ces prochaines étapes”
Les étapes de la synthèse vidéo. Crédit : Université de Washington
Le système se compose de deux parties : d’abord, un réseau neuronal est entraîné à regarder de grands volumes de vidéos pour reconnaître quels sons audio correspondent à quelles formes de bouche. Ensuite, les résultats sont mélangés à des images animées d’une personne spécifique, sur la base de recherches antérieures sur la modélisation numérique menées à l’Université de Washington.
L’outil est d’une qualité impressionnante, comme vous pouvez le voir dans les clips de démonstration (ci-dessous), mais il a besoin de fichiers audio et vidéo sources pour travailler, et ne peut pas générer des discours à partir de rien. À l’avenir, selon les chercheurs, le système d’IA pourrait être entraîné à l’aide de vidéos provenant d’applications de messagerie, puis utilisé pour améliorer leur qualité.
“Lorsque vous regardez Skype ou Google Hangouts, la connexion est souvent bégayante et de faible résolution et vraiment désagréable, mais souvent l’audio est plutôt bon”, explique l’un des membres de l’équipe, Steve Seitz. “Donc si vous pouviez utiliser l’audio pour produire une vidéo de bien meilleure qualité, ce serait formidable”
Lorsqu’il s’agit de repérer les fausses vidéos, l’algorithme utilisé ici pourrait être inversé pour détecter les clips qui ont été trafiqués, selon les chercheurs.
Vous pouvez voir l’outil en action ci-dessous :
Comme vous le savez peut-être grâce aux jeux vidéo et aux films d’animation, les scientifiques travaillent d’arrache-pied pour résoudre le problème de la “vallée mystérieuse”, où la vidéo générée par ordinateur d’une personne qui parle a l’air presque correcte, mais reste quelque peu rébarbative.
Dans ce cas, le système d’IA fait tout le travail lorsqu’il s’agit de déterminer la forme de la bouche, la position du menton et les autres éléments nécessaires pour que le clip d’une personne qui parle ait l’air réaliste.
L’intelligence artificielle excelle dans les problèmes d’apprentissage automatique comme celui-ci, où des masses de données peuvent être analysées pour apprendre à des systèmes informatiques à faire quelque chose, qu’il s’agisse de reconnaître des chiens dans une recherche d’images ou de produire une vidéo d’apparence naturelle.
“Il existe déjà des millions d’heures de vidéo provenant d’interviews, de chats vidéo, de films, de programmes télévisés et d’autres sources”, explique le chercheur principal Supasorn Suwajanakorn. “Et ces algorithmes d’apprentissage profond sont très avides de données, donc c’est une bonne correspondance pour le faire de cette façon”
C’est un autre pas en avant légèrement effrayant dans la qualité de la falsification numérique, similaire au projet VoCo d’Adobe, que nous avons vu l’année dernière – un autre système d’IA qui peut produire un nouveau discours à partir de rien après avoir étudié seulement 20 minutes de quelqu’un qui parle.
Toutefois, ce réseau neuronal particulier a été conçu pour travailler avec un seul individu à la fois, en utilisant des clips audio authentiques, de sorte que vous pouvez encore faire confiance aux séquences que vous voyez aux informations pendant un certain temps.
“Nous avons très consciemment décidé de ne pas emprunter la voie consistant à mettre les mots d’autres personnes dans la bouche de quelqu’un”, explique Seitz. “Nous prenons simplement les mots réels que quelqu’un a prononcés et les transformons en une vidéo réaliste de cette personne.”
La recherche est présentée à la conférence d’infographie SIGGRAPH 2017 et vous pouvez lire le document ici.