Les systèmes de stockage de données basés sur l'ADN peuvent être un débouché pour l'humanité, qui génère de plus en plus d'informations. Comparé à tous les autres médias, l'ADN a une densité d'enregistrement de données phénoménale. Un autre avantage est que dans le cas de l'ADN, le stockage des données dans des conditions optimales ne nécessite pas d'énergie, et les informations peuvent être stockées pendant des centaines d'années. Après plusieurs siècles, les données peuvent être lues sans problème - bien sûr, sous réserve de la disponibilité de la technologie appropriée.
Mais l'ADN a ses inconvénients. Par exemple, il n'existe actuellement aucune norme pour le codage d'informations dans un brin d'ADN. La synthèse de molécules artificielles est assez coûteuse et la lecture des informations stockées peut prendre des jours ou des semaines. L'accès répété aux brins d'ADN pour l'information conduit à une violation de la structure des molécules, de sorte que des erreurs peuvent éventuellement se produire. Une méthode a maintenant été proposée qui aidera à résoudre certains de ces problèmes. Le système de stockage de données (jusqu'à présent uniquement des images) est un croisement entre un système de fichiers classique et une base de données basée sur des métadonnées.
En savoir plus sur les problèmes
Les systèmes de stockage de données développés dans l'ADN prévoient l'ajout de certaines étiquettes de séquence aux régions d'ADN qui contiennent des données. Pour obtenir les informations nécessaires, des régions sont ajoutées à la molécule qui sont capables de former des paires de bases avec les marqueurs souhaités. Tout cela est utilisé pour amplifier la séquence complète. Quelque chose comme marquer chaque image d'une collection avec son propre identifiant, puis tout configurer pour qu'un identifiant spécifique soit amplifié.
La méthode est assez efficace, mais elle a deux limites. Premièrement, l'étape d'amplification, qui est réalisée par le procédé de réaction en chaîne par polymérase (PCR), a des limitations sur la taille de la séquence amplifiée. Cependant, chaque balise occupe une partie d'un espace déjà limité, donc l'ajout de balises détaillées réduit la quantité d'espace de stockage.
Une autre limitation est que la PCR amplifiant certains fragments d'ADN avec des données consomme une partie de la bibliothèque d'ADN d'origine. Autrement dit, chaque fois que nous lisons des données, certaines d'entre elles sont détruites. Les scientifiques comparent cette méthode de recherche d'informations à la combustion d'une botte de foin pour trouver une aiguille. Si vous le faites fréquemment, vous risquez de perdre complètement la base de données entière. Certes, il existe des moyens de récupérer les zones perdues, mais cette méthode n'est pas idéale, car lors de son utilisation, la probabilité d'erreurs dans les zones d'ADN et de données augmente.
La nouvelle méthode sépare les informations de l'étiquette des données de base. De plus, les chercheurs ont créé un système qui permet d'accéder uniquement aux données qui nous intéressent. Le reste des informations reste intact, de sorte que les molécules d'ADN restent intactes et non endommagées.
Nouveau système
La technologie est basée sur des capsules de dioxyde de silicium qui stockent des fichiers individuels. Des étiquettes ADN sont attachées à chaque capsule pour montrer ce qu'il y a dans le fichier. Chaque capsule mesure environ 6 micromètres. Grâce à un tel système, les scientifiques ont réussi à apprendre à extraire des images individuelles avec une précision de 100 %. L'ensemble de fichiers qu'ils ont créé n'est pas très volumineux - il n'y en a que 20. Mais si vous tenez compte des capacités de l'ADN, un tel système peut être étendu à un sextillion de fichiers.
Ces 20 fichiers ont été codés en fragments d'ADN d'environ 3000 nucléotides, ce qui représente environ 100 octets de données. Une capsule de silice peut contenir un fichier jusqu'à un gigaoctet. Une fois le fichier emballé, des étiquettes d'ADN simple brin sont placées sur sa surface. Plusieurs balises peuvent être attachées à un seul shell pour servir de mots-clés. Par exemple, "rouge", "chat", "animal".
Les capsules de silice ainsi marquées sont regroupées en une seule bibliothèque de données. Il n'est pas aussi compact qu'un référentiel fait d'ADN pur, mais les données ne sont pas endommagées dans ce cas.
Rechercher des fichiers
Un groupe de mots-clés - tags est utilisé pour rechercher des fichiers. Par exemple, si vous voulez trouver l'image d'un chat, les balises sont orange, chat et domestique. Pour rechercher un tigre, uniquement "orange" et "chat". La vitesse de recherche dans un tel système est encore très faible - environ 1 Ko par seconde.
Une autre astuce est que chaque marqueur est associé à des molécules fluorescentes de couleurs différentes. Par conséquent, lors de la demande, toutes les capsules portant les étiquettes requises brilleront d'une certaine couleur. Il existe maintenant des appareils qui utilisent des lasers pour séparer les objets en fonction de la couleur de fluorescence, il est donc techniquement possible de séparer les données nécessaires.
Dans ce cas, le reste de la bibliothèque ne sera pas affecté, ce qui signifie que les données ne seront pas affectées. Il n'est plus nécessaire de brûler une botte de foin pour trouver une aiguille. Un plus supplémentaire dans la possibilité de recherche logique avec différents critères. Par exemple, les conditions de requête peuvent être complexes : true pour "cat", false pour "home", true pour "black", etc.
Non seulement la recherche
Oui, car la tâche de trouver les données nécessaires n'est qu'une partie du cas, et même pas la moitié. Les données détectées doivent encore être séquencées. Et pour cela, il faut ouvrir la coque de silice, retirer le fil stocké dans la capsule, injecter de l'ADN dans la bactérie puis lire les données. C'est un processus extrêmement lent, et même les streamers sont une technologie très rapide en comparaison.
D'un autre côté, les systèmes basés sur l'ADN ne seront pas rapides, leur objectif principal est de stocker d'énormes quantités d'informations qui n'ont pas besoin d'être récupérées souvent. De plus, la technologie sera améliorée au fil du temps, de sorte que la vitesse de lecture des informations augmentera, espérons-le.