L’ADN pour stocker les données

D’ici 2025 le volume des données produites dans le monde aura atteint 250 zettaoctets (1 zettaoctet = 10²¹ octets). Les supports actuels ont une capacité de stockage insuffisante ou souffrent d’obsolescence. Préserver ne serait-ce qu’une fraction de ces données signifie trouver un dispositif de stockage aux caractéristiques de densité et de durabilité nettement supérieures à celles des systèmes existants. Le projet européen OligoArchive, lancé en octobre 2019 pour trois ans, propose d’utiliser l’ADN (Acide DésoxyriboNucléique) comme support de stockage. Explications avec Raja Appuswamy, chercheur à EURECOM, partenaire du projet.

Dans quel contexte global est né le projet européen OligoArchive ?

Raja Appuswamy Aujourd’hui, tout dans notre société est régi par les données. Prenons une image : si les données sont l’huile qui alimente le véhicule de l’IA, les technologies de stockage sont le rouage qui fait tourner la roue. Pendant des décennies, nous avons voulu des dispositifs de stockage capables de fournir rapidement des données ; des technologies de stockage optiques, magnétiques et à semi-conducteurs ont évolué pour répondre à cette exigence. De plus en plus dépendants des données, nous sommes confrontés à un nouveau besoin : celui de dispositifs de stockage à long terme, bon marché, capables de stocker en toute sécurité les connaissances collectives que nous produisons, pendant des centaines, voire des milliers d’années. Imaginez que vous ayez une photo que vous aimeriez transmettre à vos arrière-arrière-petits-enfants. Où la stockeriez-vous ? Combien d’espace cela prendrait-il ? Quelle quantité d’énergie utiliserait-elle ? Combien cela coûterait ? Vos supports de stockage seraient-ils toujours lisibles dans deux générations ? C’est le contexte du projet OligoArchive.

Quels sont les enjeux de ce projet ?

RA Les lecteurs de bande magnétiques sont actuellement la référence en matière d’archivage de données dans toutes les disciplines, des archives de films hollywoodiens aux données des accélérateurs de particules. Mais le support de bande magnétique souffre de plusieurs limitations fondamentales qui le rendent impropre au stockage de données à long terme. Premièrement, la densité de stockage de la bande – la quantité de données que vous pouvez stocker par pouce – s’améliore à un taux annuel de 30% ; les données d’archives, en revanche, ont un taux de croissance de 60%. Deuxièmement, si l’on stocke 1 Po (soit 10¹⁵ octets) dans 100 lecteurs de bande magnétique aujourd’hui, d’ici cinq ans, il sera possible de stocker les mêmes données dans seulement 25 lecteurs. Bien que cela puisse sembler une bonne chose, l’utilisation de bandes magnétiques pour le stockage d’archives implique une migration constante des données avec chaque nouvelle génération de bandes, et ces migrations coûtent des millions de dollars.

Ce problème est si aigu que les archives cinématographiques hollywoodiennes ont ouvertement admis que nous vivons dans une période morte pendant laquelle les productions de plusieurs artistes indépendants ne seront pas sauvegardées pour l’avenir ! Au rythme auquel nous générons des données pour alimenter nos machines d’IA, les entreprises seront bientôt à ce stade. Ainsi, l’industrie du stockage dans son ensemble s’est rendu compte qu’une technologie de stockage radicalement nouvelle était nécessaire si nous voulons préserver les données d’une génération à l’autre.

Quels seront les avantages de la technologie développée par OligoArchive ?

RA Le projet OligoArchive a pour objectif ambitieux de réaffecter le rôle de l’ADN – un élément constitutif biologique – pour qu’il fonctionne comme un support de stockage numérique radicalement nouveau. L’ADN possède trois propriétés clés qui le rendent pertinent pour le stockage de données numériques. Premièrement, il s’agit d’un support de stockage tridimensionnel extrêmement dense qui a la capacité théorique de stocker 455 exaoctets dans 1 gramme (1 exaoctet = 10¹⁸ octets). La somme totale de toutes les données produites dans le monde devrait atteindre 250 zettaoctets d’ici 2025 (1 zettaoctet = 10²¹ octets). Ces données pourraient être stockées dans un peu moins d’un demi-kilogramme d’ADN. Deuxièmement, l’ADN peut durer plusieurs millénaires, comme le démontrent des expériences dans lequelles, à partir de fossiles qui remontent à des milliers d’années, l’ADN d’espèces animales anciennes et disparues a pu être lu. Si nous pouvons faire revivre le mammouth Wolly à partir de son ADN, nous pouvons stocker des données dans l’ADN pendant des millénaires. Troisièmement, la densité de l’ADN est fixée par la nature, et nous aurons toujours la capacité et le besoin de lire l’ADN – tout, de l’archéologie à la médecine de précision, en dépend. Ainsi, l’ADN est un support de stockage immortel qui n’a pas de problème d’obsolescence contrairement aux autres supports de stockage. Rappelez-vous les disquettes !

Quelle expertise apportent les chercheurs d’EURECOM?

RA Le département Data Science d’EURECOM contribue à plusieurs aspects de ce projet. Tout d’abord, nous nous appuyons sur notre expertise approfondie des systèmes de stockage pour concevoir divers aspects de l’utilisation de l’ADN comme support de stockage, tels que le développement de solutions pour mettre en œuvre une abstraction de blocs sur l’ADN ou fournir un accès aléatoire aux données stockées dans l’ADN. Ensuite, nous combinons notre expertise dans la gestion des données et dans l’apprentissage automatique pour développer de nouveaux algorithmes d’encodage et de décodage sensibles à la structure, qui peuvent stocker et récupérer de manière fiable des données dans l’ADN, même si les tâches biologiques sous-jacentes de synthèse (écriture) et de séquençage (lecture) introduisent des erreurs.

Quels sont vos partenaires et quelles sont leurs contributions respectives ?

RA Le consortium est un groupe pluridisciplinaire rassemblant des expertises très variées dans toute l’Europe. L’Institut de Pharmacologie Moléculaire et Cellulaire (IPMC) de Sophia Antipolis, qui abrite le plus grand laboratoire de séquençage de la région PACA (Provence Alpes Côte d’Azur), est un partenaire qui apporte son expertise biologique au projet. Nos partenaires de I3S-CNRS travaillent sur de nouvelles techniques de compression personnalisées pour le stockage d’ADN qui réduiront considérablement la quantité d’ADN nécessaire pour stocker le contenu numérique. Nos collègues de l’Imperial College de Londres (Royaume-Uni) s’appuient sur notre travail et repoussent les limites en utilisant l’ADN non seulement comme support de stockage, mais aussi comme substrat de calcul en montrant que certaines opérations de base de données SQL qui s’exécutent in silico (sur un processeur) aujourd’hui peuvent être traduites efficacement en réactions biochimiques in vitro directement sur l’ADN. Enfin, nous avons également un partenaire industriel, HelixWorks, une startup irlandaise spécialisée dans l’étude de nouvelles techniques de synthèse enzymatique pour réduire le coût de génération d’ADN.

Quels résultats sont attendus et à terme quelles seront les applications ?

RA L’objectif final ambitieux du projet est de construire un disque ADN : un prototype de bout en bout pleinement fonctionnel qui montre que l’ADN peut en effet remplacer la technologie de stockage d’archives actuelle qu’est la bande magnétique. Du point de vue des applications, le stockage d’archives est une industrie d’un milliard de dollars, et nous pensons que l’ADN est véritablement une technologie de rupture, en mesure de remodeler ce marché. Mais nous pensons aussi que notre projet a un impact sur des domaines au-delà du stockage d’archives.

Premièrement, nos travaux sur le calcul de l’ADN ouvrent un tout nouveau domaine de recherche sur le traitement des données à proximité de molécules, qui reflète la tendance actuelle à rapprocher le calcul des données pour éviter un mouvement de données chronophage. Deuxièmement, la plupart des modèles et outils que nous développons pour le stockage de l’ADN sont en fait applicables à l’analyse de données génétiques dans d’autres contextes. Par exemple, l’algorithme que nous développons pour lire les données de l’ADN fournit une solution évolutive pour le regroupement de séquences – un problème classique de génomique computationnelle avec plusieurs applications. Ainsi, nos travaux contribueront également aux progrès de la génomique computationnelle.

En savoir + sur OligoArchive

Propos recueillis par Véronique Charlet pour I’MTech

I'MTech L'actualité scientifique et technologique de l'IMT