Le géant des logiciels Adobe a présenté une nouvelle application puissante d’édition audio qui pourrait changer à jamais la façon dont nous considérons l’authenticité de la parole enregistrée.
Baptisé Project VoCo, le prototype pourrait être décrit comme “Photoshop pour la voix”, permettant à quiconque de modifier librement le contenu parlé dans les enregistrements audio – de la même manière que des programmes comme Photoshop vous permettent de modifier des données visuelles.
Lors de la présentation de l’application au salon Adobe Max 2016, la semaine dernière, le chercheur Zeyu Jin, de l’université de Princeton, a montré à quel point il sera facile, dans un avenir proche, de manipuler et de transformer des fichiers sonores et, dans des cas extrêmes, de mettre dans la bouche des gens des mots qui n’ont jamais été prononcés.
Alors que les applications d’édition audio permettent depuis longtemps de couper, copier et recoller manuellement des parties d’ondes sonores, VoCo (conversion de la voix) fonctionne sur un nouveau principe, en utilisant un algorithme qui décompose et recompile la parole humaine.
Adobe n’a pas encore expliqué le fonctionnement de cette technologie, mais le logiciel semble identifier et enregistrer les phonèmes – les différents sons de la parole que nous assemblons pour former des mots et des phrases.
Avec la bonne quantité de données sonores dans le fichier – qui, selon Adobe, correspond à environ 20 minutes de conversation d’une personne – VoCo aura enregistré suffisamment de ces phonèmes pour se faire passer pour cette personne, en les assemblant pour former de nouveaux mots et de nouvelles phrases.
Dans la vidéo ci-dessous, vous pouvez voir comment VoCo fonctionne. En utilisant un extrait de l’enregistrement audio du comédien Keegan-Michael Key, Jin commence par réarranger les mots.
Dans le clip, Key dit : “J’ai embrassé mes chiens et ma femme.” Dans le programme, une représentation visuelle de l’onde sonore apparaît dans une fenêtre, tandis qu’une autre fenêtre affiche les mots prononcés en texte.
En faisant un simple copier-coller dans la fenêtre de texte – sans aucune autre technique d’édition – Jin change d’abord l’enregistrement en “J’ai embrassé ma femme et ma femme”, puis tape manuellement “chiens” à la fin de la phrase : “J’ai embrassé ma femme, et mes chiens.”
Jusqu’ici, cela n’a rien d’extraordinaire, puisque tous ces mots figuraient dans l’enregistrement original. Mais ensuite, Jin tape un nouveau mot qui ne faisait pas partie de l’enregistrement, insérant un nom pour donner à la phrase une signification totalement différente : “J’ai embrassé Jordan et mes chiens.”
Pour aller plus loin, Jin modifie ensuite l’audio pour qu’il dise “J’ai embrassé Jordan trois fois”
Il est intéressant de noter que l’enregistrement, lorsqu’il est écouté, semble un peu défectueux, le rythme du discours étant un peu décalé, mais il faut garder à l’esprit qu’il ne s’agit que d’une version prototype.
Comme le souligne Sebastian Anthony d’Ars Technica, Adobe présente souvent en avant-première des logiciels en cours de développement lors de son événement Max, un an ou deux avant leur commercialisation – et il ne fait aucun doute qu’au fur et à mesure que la technologie s’améliore, cette imitation du discours d’une vraie voix pourrait s’améliorer considérablement.
Mais contrairement à Photoshop et à ses nombreux clones, qui jouissent d’une grande popularité – puisque presque tout le monde aime les photos – qui aurait besoin de ce genre de trucage d’édition audio ?
Adobe destine VoCo aux médias, aux podcasteurs, aux réalisateurs de films et aux professionnels de l’industrie audio, en faisant valoir que la possibilité d’améliorer les enregistrements vocaux facilitera leur travail.
“Lors de l’enregistrement de voix-off, de dialogues et de narrations, les gens souhaitent souvent modifier ou insérer un ou plusieurs mots en raison d’une erreur qu’ils ont commise ou simplement parce qu’ils souhaitent modifier une partie de la narration”, explique la société dans un communiqué de presse.
“[Avec VoCo], vous pouvez simplement taper le ou les mots que vous souhaitez modifier ou insérer dans la voix-off. L’algorithme fait le reste et donne l’impression que le locuteur original a prononcé ces mots.”
Mais même si le logiciel est sans aucun doute impressionnant, tout le monde n’est pas emballé par la nouvelle facilité et la sophistication de cette falsification audio numérique.
Après tout, ce type de montage pourrait être utilisé pour usurper l’identité de pratiquement n’importe qui, ce qui pourrait entraîner toutes sortes de problèmes – tout comme le Photoshopping rampant rend plus difficile la confiance dans les images numérisées que nous voyons chaque jour sur Internet.
“Il semble que les programmeurs d’Adobe aient été emportés par l’excitation de créer quelque chose d’aussi innovant qu’un manipulateur de voix, et qu’ils aient ignoré les dilemmes éthiques soulevés par son utilisation abusive potentielle”, a déclaré à la BBC Eddy Borges Rey, chercheur dans le domaine des médias et des technologies à l’université de Stirling, au Royaume-Uni.
“Par inadvertance, dans sa quête de création d’un logiciel pour manipuler les médias numériques, Adobe a [déjà] radicalement changé la façon dont nous nous engageons avec des éléments de preuve tels que des photographies.”
Adobe dit être conscient du potentiel d’abus avec le projet VoCo, et travaille donc déjà sur des technologies qui permettront de détecter si un enregistrement a été trafiqué – comme l’intégration de filigranes audio cachés, qui pourraient potentiellement déclencher des fonctions de sécurité vocale utilisées dans des systèmes comme la banque numérique.
Mais si les machines sont capables de détecter les imitations, cela ne signifie pas que nous le serons aussi. À l’avenir, nous devrons peut-être nous habituer à ne plus faire autant confiance à nos oreilles lorsque nous entendrons des enregistrements de politiciens, de personnalités publiques ou même d’êtres chers.
Et tant que VoCo ne sera pas commercialisé – Adobe n’a pas encore confirmé de calendrier – nous ne saurons pas non plus si les humains sont les seules choses qu’il peut tromper.
“Les entreprises de biométrie affirment que leurs produits ne seraient pas trompés par ce système, car les éléments qu’ils recherchent ne sont pas les mêmes que ceux que les humains recherchent pour identifier les gens”, a déclaré à la BBC le chercheur Steven Murdoch de l’University College London.
“Mais la seule façon de le savoir est de les tester, et il faudra un certain temps avant de connaître la réponse”