Un groupe d’informaticiens, autrefois soutenu par Elon Musk, a suscité l’inquiétude en développant une intelligence artificielle (IA) avancée qu’il juge trop dangereuse pour être rendue publique.
OpenAI, une organisation de recherche à but non lucratif basée à San Francisco, a déclaré que son système de prédiction linguistique “caméléon”, appelé GPT-2, ne fera l’objet que d’une diffusion limitée dans une version réduite, en raison de “préoccupations concernant des applications malveillantes de la technologie”.
En effet, le modèle informatique, qui génère des paragraphes de texte originaux à partir de ce qu’on lui demande de “lire”, est un peu trop bon dans son travail.
Le système conçoit des “échantillons de texte synthétique d’une qualité sans précédent” qui, selon les chercheurs, sont si avancés et si convaincants que l’IA pourrait être utilisée pour créer des fausses nouvelles, usurper l’identité de personnes et abuser ou tromper les gens sur les médias sociaux.
“GPT-2 est entraîné avec un objectif simple : prédire le mot suivant, compte tenu de tous les mots précédents dans un texte donné”, explique l’équipe d’OpenAI sur son blog.
Pour alimenter l’imagination de GPT-2, ils ont fourni à leur générateur de texte d’IA un ensemble de données de huit millions de pages Web, et l’ont laissé les absorber.
Une fois qu’il a terminé, il peut alors converser sur le sujet, tel qu’il le comprend, et générer un charabia aléatoire mais convaincant, qu’il s’agisse de l’actualité des célébrités, du changement climatique, de la guerre civile ou d’une fanfiction inspirée de Tolkien.
Voici quelques exemples édités pour vous donner une idée de ce à quoi nous avons affaire ici.
Invitation humaine : “Miley Cyrus a été surprise en train de voler à l’étalage chez Abercrombie and Fitch sur Hollywood Boulevard aujourd’hui.”
Réponse GPT-2 : “La chanteuse de 19 ans a été filmée en train d’être escortée hors du magasin par des agents de sécurité. La chanteuse portait un sweat à capuche noir avec l’inscription ‘Blurred Lines’ sur le devant et ‘Fashion Police’ dans le dos.”
Invitation humaine : “Le recyclage est bon pour le monde. NON ! VOUS NE POURRIEZ PAS AVOIR PLUS TORT !!”
Réponse de GPT-2 : “Le recyclage n’est PAS bon pour le monde. Il est mauvais pour l’environnement, pour notre santé et pour notre économie. Je ne plaisante pas. Le recyclage n’est pas bon pour l’environnement. Il est destructeur pour la terre et contribue largement au réchauffement climatique.”
Invitation humaine : “Pour le devoir d’aujourd’hui, veuillez décrire les raisons de la guerre civile américaine.”
Réponse de GPT-2 : “Par Donny Ferguson. Il est facile d’identifier les raisons de la guerre de Sécession, car tant de gens et tant de livres et tant de télévision et de films nous disent que c’était la cause, que cela a quelque chose à voir avec la race, l’économie ou la religion. Tout le monde s’accorde à dire qu’il s’agissait essentiellement d’une guerre d’esclavage au nom du capitalisme, d’un siècle d’esclavage. Mais ce n’est pas ce à quoi la plupart des gens pensent quand ils évoquent la guerre de Sécession.”
Et enfin – cette fan fiction dont nous avons parlé.
Le prompteur humain : “Legolas et Gimli ont avancé sur les orcs, levant leurs armes avec un cri de guerre déchirant.”
Réponse de GPT-2 : “La réponse des orcs fut un assaut assourdissant de griffes, de griffes et de griffes ; même Elrond fut obligé de battre en retraite. ‘Vous êtes entre de bonnes mains, nain’, dit Gimli, qui avait été parmi les premiers à charger les orcs ; il ne fallut que deux mots pour que leurs adversaires soient réduits à un bourbier imbibé de sang, et que le nain prenne sa première victime de la nuit.”
(Vous pouvez lire la suite de cet étrange hommage à Tolkien ici)
Cependant, malgré la nature déroutante de ces étranges ad libs, le modèle de langue n’est pas parfait, ce que l’équipe reconnaît librement.
“Comme le montrent les échantillons ci-dessus, notre modèle est capable de générer des échantillons à partir d’une variété d’invites qui se rapprochent de la qualité humaine et présentent une cohérence sur une page ou plus de texte”, indiquent les chercheurs.
“Néanmoins, nous avons observé divers modes d’échec, tels que des textes répétitifs, des échecs de modélisation du monde (par exemple, le modèle écrit parfois que des incendies se produisent sous l’eau), et des changements de sujet non naturels.”
Cela dit, d’après ce qu’ils ont vu jusqu’à présent de leur création verbeuse d’IA, OpenAI affirme que les modèles de langage sont facilement capables de générer des textes évolutifs, personnalisés et cohérents, qui pourraient être cooptés à des fins malveillantes en plus des fins bénéfiques.
“Ces résultats, combinés à des résultats antérieurs sur l’imagerie synthétique, l’audio et la vidéo, impliquent que les technologies réduisent le coût de la génération de faux contenus et de la mise en place de campagnes de désinformation”, écrivent les chercheurs.
“En raison des inquiétudes concernant l’utilisation de grands modèles de langage pour générer un langage trompeur, biaisé ou abusif à l’échelle, nous ne publions qu’une version beaucoup plus petite de GPT-2 ainsi que le code d’échantillonnage.”
Alors que certains ont suggéré que les craintes concernant les capacités de GPT-2 sont exagérées – et que la position d’OpenAI est en fait une tentative de publicité – l’association à but non lucratif affirme que sa prudence est justifiée.
“Les règles selon lesquelles vous pouvez contrôler la technologie ont fondamentalement changé”, a déclaré au Guardian le directeur des politiques de l’entreprise, Jack Clark.
“Nous ne disons pas que nous savons ce qu’il faut faire ici, nous ne posons pas de ligne de conduite en disant ‘c’est la voie’… Nous essayons de construire la route au fur et à mesure que nous la traversons”
La recherche est décrite dans un rapport disponible sur le site Web d’OpenAI.