Des scientifiques ont stocké un film, un système d’exploitation et une carte cadeau Amazon dans une seule parcelle d’ADN

Des scientifiques ont mis au point ce qu’ils prétendent être la technique de stockage de données la plus efficace qui soit, grâce à une nouvelle méthode d’encodage de l’ADN qui approche le maximum théorique d’informations stockées par nucléotide.

À l’aide d’un algorithme appelé ” DNA Fountain”, les chercheurs ont condensé six fichiers dans un seul grain d’ADN, dont un court métrage, un système d’exploitation informatique complet et une carte-cadeau Amazon, mais ce n’est qu’un début. Selon l’équipe, la même technique permettrait de comprimer efficacement toutes les données du monde dans une seule pièce.

Non seulement le stockage de données par l’ADN permet un gain de place incroyable, mais cette technique pourrait également nous permettre de préserver le savoir avec une robustesse et une longévité extrêmes, contrairement aux supports technologiques traditionnels, connus pour succomber à toutes sortes de défauts avec le temps.

“L’ADN ne se dégrade pas avec le temps comme les cassettes et les CD, et il ne deviendra pas obsolète – si c’est le cas, nous avons de plus gros problèmes”, explique l’informaticien Yaniv Erlich de l’université Columbia.

Le stockage de l’ADN en soi n’est pas nouveau, la technique ayant été inaugurée en 2012 par des chercheurs de l’université de Harvard, qui ont compris comment comprimer un livre de 53 400 mots dans le code génétique de molécules d’ADN synthétique, puis relire les données en utilisant le séquençage de l’ADN.

Depuis lors, d’autres équipes ont tenté d’optimiser la technique. L’année dernière, Microsoft a affirmé qu’une méthode qu’elle avait mise au point était 20 fois plus efficace que le précédent record.

Erlich et sa collègue Dina Zielinski du New York Genome Centre affirment à leur tour que leur propre stratégie de codage est 100 fois plus efficace que la norme de 2012 et qu’elle permet d’enregistrer 215 pétaoctets de données sur un seul gramme d’ADN.

À titre d’information, un seul pétaoctet équivaut à 13,3 années de vidéo haute définition. Si vous avez envie de jeter un coup d’œil dédaigneux au disque dur externe qui se trouve sur le bureau de votre ordinateur en ce moment, nous ne vous jugerons pas.

Au cœur du système des chercheurs se trouve un algorithme conçu à l’origine pour détecter et corriger les erreurs dans les applications de streaming vidéo.

Selon les chercheurs, le même type de mécanisme peut être utilisé pour éviter les erreurs lors de la relecture de données binaires (composées de 1 et de 0) qui ont été traduites en quatre bases nucléotidiques de l’ADN : A, G, C et T.

“Toutes les molécules d’ADN ne sont pas égales”, a déclaré M. Erlich à Dexter Johnson, de IEEE Spectrum.

“Si vous avez des molécules d’ADN qui ont un long tronçon du même nucléotide, comme AAA, ce n’est pas très favorable pour la machinerie informatique. Il est très difficile de lire cette molécule sans erreur. Il faut donc éviter ce genre d’étirement”

L’algorithme des chercheurs parvient à éviter les erreurs lors de la relecture des données de l’ADN en codant en plus une série d’indices sur ce à quoi les informations devraient ressembler une fois décodées.

Cela signifie qu’il est non seulement possible de recréer les fragments d’ADN perdus au cours du processus, mais aussi qu’il est hautement optimisé.

“Nous avons montré que nous pouvions stocker de manière fiable des informations sur l’ADN et que notre organisation de l’information se rapprochait de l'”empaquetage optimal”, a déclaré Erlich à Katherine Lindemann sur ResearchGate, ce qui signifie qu’il est pratiquement impossible de faire tenir plus d’informations sur la même quantité de matériel ADN.”

Pour tester le système, l’équipe a compressé six fichiers : un système d’exploitation d’ordinateur ; un court-métrage français de 1895, le virus ; l’arrivée d’un train à La Ciotat ; une carte cadeau Amazon de 50 dollars ; une plaque d’ ordinateur Pioneer ; et un article universitaire du théoricien de l’information Claude Shannon.

La taille globale du fichier de l’ensemble était relativement minime (2 Mo), mais l’important était de vérifier si l’algorithme de la fontaine ADN était capable de coder les informations binaires en données génétiques sans perdre aucune information.

Après avoir converti les données numériques – représentées dans une liste de 72 000 brins d’ADN – en une tache de molécules d’ADN transportée dans une fiole, les chercheurs ont pu séquencer l’ADN et récupérer les fichiers sans aucune erreur.

Bien qu’il s’agisse d’un résultat impressionnant, l’équipe estime qu’il faudra un certain temps avant que le stockage et la lecture de données dans l’ADN ne soient rentables pour le reste d’entre nous. Pour leur paquet de 2 Mo, les chercheurs ont dépensé 7 000 dollars pour synthétiser l’ADN, et 2 000 dollars supplémentaires pour le séquencer.

Erlich pense qu’il faudra peut-être plus d’une décennie avant que le stockage de l’ADN ne devienne accessible au grand public.

Et même alors, la technologie pourrait être réservée à des choses comme l’enregistrement des données des patients dans les systèmes médicaux, plutôt que d’être vendue aux consommateurs comme le dernier produit technologique.

“Nous en sommes encore aux premiers stades du stockage de l’ADN. Il s’agit de science fondamentale”, a déclaré M. Erlich à Eva Botkin-Kowacki du Christian Science Monitor.

“Ce n’est pas demain que vous irez chez Best Buy pour vous procurer votre disque dur ADN”

Les résultats sont publiés dans Science.