Annäherung an ein DNA-basiertes Dateisystem

Näher an ein DNA-basiertes Dateisystem heranrücken EnlargeWyss Institut, Harvard

Wenn es um Datenspeicherung geht, sollten Sie versuchen, den Zugriff zu beschleunigen die meiste Aufmerksamkeit. Die Langzeitarchivierung von Daten ist jedoch genauso wichtig, und es erfordert in der Regel einen völlig anderen Satz von Eigenschaften. Um ein Gefühl dafür zu bekommen, warum es wichtig ist, dies richtig zu machen, Nehmen Sie einfach den kürzlich wiederbelebten NASA-Satelliten als Beispiel: Das Extrahieren von Daten aus dem Satelliten ist abhängig von die Tatsache, dass eine separate NASA-Mission ein veraltetes Bandlaufwerk hatte das könnte die Kommunikationssoftware des Satelliten lesen.

Weitere Lektüre

Die NASA bestätigt: Ihr untoter Satellit ist in Betrieb

Eine der unerwartetsten Technologien, um einige zu erhalten Aufmerksamkeit als Archivierungsmedium ist DNA. Während es ist Wir wissen, dass das Speichern und Abrufen von DNA-Daten unglaublich langsam ist Informationen können aus zehntausenden von DNS herausgezogen werden Jahre alt. Und es gab einige beeindruckende Demonstrationen von der Ansatz, wie ein Betriebssystem in DNA bei einem gespeichert wird Dichte von 215 Petabyte pro Gramm.

Aber diese Methode behandelte die DNA als eine Kugel unorganisierter Teile – Sie musste alles sequenzieren, um an irgendwelche der Daten zu gelangen. Jetzt, Ein Forscherteam hat herausgefunden, wie man so etwas wie a hinzufügt Dateisystem zur DNA-Speicherung, die den wahlfreien Zugriff auf bestimmte Daten ermöglicht innerhalb einer großen Sammlung von DNA. Dabei hat das Team auch getestet eine kürzlich entwickelte Methode zur Sequenzierung von DNA, die sein kann erfolgt mit einem kompakten USB-Gerät.

Randomisierung

DNA enthält Daten als eine Kombination von vier Basen, so dass Daten gespeichert werden es erfordert eine Möglichkeit, Bits in dieses System zu übersetzen. Einmal Daten werden übersetzt und in kleinere Teile zerlegt (in der Regel 100 bis 150 Basen lang) und zwischen den Enden eingefügt, dass Erleichtert das Kopieren und Sequenzieren. Diese Enden enthalten auch einige Informationen, wo sich die Daten im Gesamtspeicher befinden Schema – d. h. das sind die Bytes 197 bis 300.

Um die Daten wiederherzustellen, muss die gesamte DNA sequenziert werden Ortsinformation gelesen und die DNA-Sequenz dekodiert. Eigentlich, Die DNA muss mehrmals sequenziert werden, da gibt es Fehler und ein gewisses Maß an Zufälligkeit in Bezug auf die Häufigkeit Fragment wird am Ende sequenziert.

Das Hinzufügen von Direktzugriffen auf Daten würde die Datenmenge erheblich reduzieren Menge der Sequenzierung, die durchgeführt werden müsste. Eher, als Sequenzieren eines gesamten Archivs, um nur eine Datei daraus zu erhalten Sequenzierung könnte viel gezielter sein. Und wie sich herausstellt, a Zusammenarbeit zwischen Microsoft Research und der University of Washington hat einen relativ einfachen Weg gefunden, dies zu tun.

Beachten Sie oben, wo die Daten zwischen kurz flankierender DNA gepackt sind Sequenzen, was das Kopieren und Sequenzieren erleichtert. Es gibt viele mögliche Sequenzen, die die Rechnung in Bezug auf passen DNA einfacher zu bearbeiten. Die Forscher identifizierten Tausende von ihnen. Jedes dieser Elemente kann zum Kennzeichnen der Intervention verwendet werden Daten als zu einer bestimmten Datei gehörend, sodass sie erweitert werden können und separat sequenziert, auch wenn es in einer großen Mischung vorliegt von DNA aus verschiedenen Dateien. Wenn Sie mehr Dateien speichern möchten, müssen Sie Sie müssen nur verschiedene DNA-Pools mit jeweils mehreren aufbewahren Tausend Dateien (oder mehrere Terabyte). Halten Sie diese Pools räumlich getrennt benötigt man etwa einen Quadratmillimeter Platz.

(Es ist möglich, viele weitere dieser DNA-Sequenzierungs-Tags zu haben, aber die Autoren wählten nur diejenigen aus, die sehr produzieren sollten konsistente Amplifikationsergebnisse.)

Das Team hat auch eine clevere Lösung für eines der Probleme gefunden Probleme der DNA-Speicherung. Viele digitale Dateien haben lange Ausdehnungen der gleichen Teile (denken Sie an einen blauen Himmel oder ein paar Sekunden von Stille in einem Musikstück). Leider neigt die DNA-Sequenzierung dazu Würgen Sie sich, wenn Sie mit einer langen Reihe identischer Basen konfrontiert werden fehler erzeugen oder einfach anhalten. Um dies zu vermeiden, haben die Forscher hat eine zufällige Sequenz erstellt und verwendet, um ein Bit-Flipping durchzuführen Operation (XOR) mit der Sequenz, die codiert wird. Das würde brechen lange Läufe von identischen Basen und stellt ein minimales Risiko von neue erschaffen.

Lange liest

Die andere Neuigkeit in dieser Publikation ist die Verwendung von a relativ neue DNA-Sequenzierungstechnologie, die Füllung beinhaltet DNA-Stränge durch eine winzige Pore und Lesen jeder Base als es durchläuft. Die Technologie dafür ist kompakt genug, dass es ist Erhältlich in einem handlichen USB-Gerät. Die Technologie war gewesen ziemlich fehleranfällig, aber es hat sich genug verbessert, dass es vor kurzem war verwendet, um ein gesamtes menschliches Genom zu sequenzieren.

Weitere Lektüre

DNA-Reader im Taschenformat zum Scannen der gesamten menschlichen Genomsequenz

Während die Nanoporentechnik Probleme mit Fehlern hat, hat sie die Vorteil der Arbeit mit viel längeren DNA-Strecken. Also die Autoren haben ihre gespeicherten Daten neu geordnet, so dass sie auf weniger, längeren Daten gespeichert werden DNA-Moleküle und gab der Hardware einen Test.

Es hatte eine erstaunlich hohe Fehlerrate – etwa 12 Prozent von ihr Maß. Dies legt nahe, dass das System angepasst werden muss Arbeiten Sie mit den DNA-Proben, die die Autoren vorbereitet haben. Immernoch Die Fehler waren größtenteils zufällig und das Team konnte und identifizieren Korrigieren Sie sie, indem Sie genügend Moleküle so sequenzieren, dass im Durchschnitt Jede DNA-Sequenz wurde 36-mal gelesen.

Also, mit etwas ähnlich einem Dateisystem und einem kompakten Leser, nähern wir uns dem Punkt, an dem sich DNA-basierte Speicherung befindet? praktisch? Nicht genau. Die Autoren weisen auf das Thema Kapazität. Unsere Fähigkeit, DNA zu synthetisieren, ist erstaunlich gewachsen Tempo, aber es begann vor ein paar Jahrzehnten von fast nichts, so ist es immer noch relativ klein. Angenommen, ein DNA-basiertes Laufwerk wäre in der Lage Lesen Sie ein paar KB pro Sekunde, dann berechnen die Forscher, dass es Ich würde nur ungefähr zwei Wochen brauchen, um jede DNA zu lesen, die wir haben könnte jährlich synthetisieren. Anders ausgedrückt, unsere Fähigkeit dazu Die DNA-Synthese hat noch einen langen Weg vor sich, bevor wir sie praktisch speichern können viele Daten.

Nature Biotechnology, 2018. DOI: 10.1038 / nbt.4079 (About DOIs).

Like this post? Please share to your friends:
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: