HomeTechQuesti sforzi del governo possono decifrare il codice per l'archiviazione del DNA?

Questi sforzi del governo possono decifrare il codice per l’archiviazione del DNA?

LO SLOGAN DELLA CITTA di Bluffdale, nello Utah, e “Life Connected”. Questo e allo stesso tempo innocuo e generale , cosi innocuo e generale che le due parole sono anche, ad esempio, lo slogan di un terapeuta del Colorado e il titolo di una colonna tecnologica della BBC. Tuttavia, a Bluffdale, all’ombra della catena montuosa Wasatch, le parole assumono una sfumatura leggermente diversa. Perche questo posto ospita una struttura chiamata in codice “Bumblehive”.

Il fatto che una struttura abbia un alias rivela sicuramente qualcosa sulla sua natura. Il Bumblehive e formalmente noto come Utah Data Center. Appartiene all’Office of the Director of National Intelligence, l’organizzazione centrale del set di spionaggio ufficiale degli Stati Uniti, e archivia i dati per la famigerata National Security Agency. “Se non hai niente da nascondere”, si legge minacciosamente un cartello davanti al Bumblehive, “non hai nulla da temere”.

Quelli al di fuori dei suoi recinti non sanno esattamente quanti dati vivono all’interno della struttura di 1 milione di piedi quadrati, ma si stima che siano negli exabyte. Un exabyte, per contesto, equivale a circa 330 miliardi di canzoni di Taylor Swift. 

Ovviamente e in modo controverso, il set di spie non e l’unico equipaggio con un interesse piuttosto significativo nel trattenere grandi quantita di informazioni. Pensa a tutte le informazioni che Google, Microsoft, Amazon e Facebook (e i loro amici) devono memorizzare per far funzionare Internet e per sapere quali strane magliette farti pubblicita. Facebook, ad esempio, sta espandendo una struttura in Texas che occupera 2,6 milioni di piedi quadrati e 150 acri quando sara completata quest’anno, per un costo di circa 1,5 miliardi di dollari. 

Nessuno vuole davvero che tutto quello spazio venga sprecato in server ronzanti e sistemi di raffreddamento e edifici noiosi che assorbono un sacco di energia e denaro. Cio e particolarmente vero perche tali metodi di archiviazione potrebbero alla fine diventare obsoleti. 

E se, invece di dover costruire un alveare di qualsiasi tipo, tutte quelle informazioni potessero stare nella tua mano, in una forma che non si degraderebbe, non passerebbe di moda o non svalirebbe la banca?

La comunita dell’intelligence vorrebbe capire come trasformare quella visione quasi ridicola in realta. E vorrebbero condividere le loro soluzioni con i data hogs del settore privato. Per far si che cio accada, per le spie e le aziende, l’Intelligence Advanced Research Projects Activity (IARPA [la DARPA dell’IC, se vuoi piu acronimi]) e attualmente nel bel mezzo di un progetto quadriennale chiamato Molecular Information Storage, o MIST. I contratti assegnati a due squadre nel 2019 ammontano a circa $ 48 milioni.

L’obiettivo di MIST e sfruttare una forma biologica di conservazione: il DNA. Le sequenze genetiche possono codificare un intero essere umano in un pacchetto troppo piccolo per essere visto, il che e un lavoro molto migliore di quello che possono fare un chip o un CD. Allo stesso modo in cui i computer usano 0 e 1 per rappresentare immagini, immagini e documenti, anche le basi nucleotidiche che compongono il DNA — adenina (A), citosina (C), guanina (G) e timina (T) — possono sostituire la stessa informazione. Ogni A, C, G o T assume semplicemente un nuovo significato codificato. 

Anche la conservazione del DNA e molto efficiente: tutta la conoscenza umana (cosi com’e, e come se potesse essere misurata) potrebbe essere conservata all’interno di una piccola stanza di DNA, mentre custodire tali informazioni su nastro magnetico richiederebbe milioni di acri. Inoltre, come dimostrera Jurassic Park : il DNA dura molto piu a lungo del nastro magnetico o dei CD (RIP) o delle unita flash. E tutto questo e cio che interessa a IARPA.

Le agenzie di ricerca e sviluppo come IARPA affrontano sfide ad alto rischio e ad alto rendimento i cui risultati potrebbero essere troppo incerti per altre organizzazioni. Chiamano problemi come l’installazione dell’intero Data Center dello Utah su un tavolo, in modo appropriato e autocongratulandosi, “IARPA-difficile”.

Tuttavia, non sfrecci oltre i tavoli delle doppie eliche contenenti l’intera Wikipedia (vero?). Questo perche non e ancora abbastanza pratico , o abbastanza economico, due cose che MIST mira a modificare.

Se MIST avra successo, alcuni degli odierni magazzini di big data potrebbero un giorno essere solo un mucchio di doppie eliche. Il programma idealmente produrra un sistema prototipo in grado di codificare 1 terabyte di dati nel DNA ed estrarre 10 terabyte dal DNA in 24 ore, per meno di $ 1.000, utilizzando meno di 1 kilowatt di energia. 

Il programma di IARPA ha lo scopo di dare un colpo nel braccio della ricerca accademica e dell’industria commerciale, spingendoli verso un obiettivo che si adatta agli interessi della comunita dell’intelligence, facendo appello alla loro curiosita intellettuale e ai loro futuri libretti degli assegni. Se MIST ha successo, puo dimostrare al settore privato sia l’interesse di un potenziale grande cliente (spie) sia un successo su cui altre aziende possono basarsi.

Due team, uno guidato dal Broad Institute e l’altro dal Georgia Tech Research Institute, hanno vinto contratti per cercare di rendere l’archiviazione dei dati del DNA piu di un semplice trucco, in modo che tutti possano vivere una vita connessa. 

LA QUANTITA di dati sta aumentando piu velocemente di quanto le persone possano creare uno spazio di archiviazione conveniente, il che significa che alcune informazioni finiscono nel cestino. “Chiunque abbia un enorme carico di archiviazione dei dati ha questo problema”, afferma David Markowitz, il responsabile del programma MIST. Sebbene nessuno lo sappia per certo, stima che il globo produca circa 30 zettabyte di dati all’anno. “Ci sono 1.000 exabyte in uno zettabyte”, afferma, “Quindi significa che stiamo producendo abbastanza nuovo nastro per archiviare lo 0,3 percento dei dati prodotti annualmente e oltre il 99 percento dei nuovi dati non potrebbe essere conservato anche se volevo.”

Il Georgia Tech Research Institute ha sviluppato un microchip per la crescita di filamenti di DNA che potrebbe fornire un’archiviazione di dati 3D ad alta densita a costi ultra bassi. I micropozzetti da cui cresce il DNA sono profondi alcune centinaia di nanometri e riflettono i colori della luce specifici nella foto. Sean McNeil, GTRI

Le agenzie di intelligence hanno naturalmente un enorme interesse a catturare e mantenere tutto. “Non si sa sempre in anticipo quali dati saranno piu utili per risolvere un mistero”, afferma Markowitz. “Chi e responsabile di alcuni degli eventi accaduti in futuro?” Per districare quella distorsione temporale e necessario trovare aghi nei pagliai e spesso, dice Markowitz, “scavare molti dati storici”. 

L’idea di usare il DNA per aggrapparsi ad esso risale a decenni fa come un’ipotesi. Nel 1988, per esempio, un artista di nome Joe Davis (con aiutanti ad Harvard) ha creato un’opera chiamata “Microvenus”. Ha incorporato un’immagine a 35 bit nei nucleotidi di E. coli , mostrando un vecchio carattere germanico che significa “Terra femmina”.

Davis e ora affiliato al laboratorio di Harvard dello scienziato George Church (il pioniere dell’editing genetico che sta attualmente cercando di resuscitare il mammut lanoso). Nel 2011, Church ha intrappolato 700 kilobyte di un libro (umilmente, uno che aveva scritto insieme) nel DNA e l’anno successivo ha lavorato a un progetto simile, aggiungendo immagini e codice JavaScript. Nel 2013, i ricercatori dell’Istituto europeo di bioinformatica hanno dimostrato di poter codificare piu di 625 kilobyte nel DNA, con pochi errori.

Uno dei due team che lavorano su questo problema come parte di MIST e guidato da Georgia Tech e include anche Twist Bioscience, Roswell Biotechnologies e l’Universita di Washington in collaborazione con Microsoft. Il gruppo chiama la sua soluzione SMASH: Software e hardware di archiviazione molecolare scalabile.

Una volta che SMASH viene evocato, funzionera in questo modo: il software tradurra le informazioni in sequenze genetiche, sputando stringhe di As, G, C e T che rappresentano i dati. Quindi, un computer invia quelle stringhe di lettere a un chip semiconduttore, essenzialmente istruzioni per quali basi di DNA costruire in quale ordine.

Quel chip e pieno di minuscoli pozzi, profondi solo poche centinaia di nanometri. Ogni pozzetto e un minuscolo sintetizzatore di DNA, in grado di far crescere sequenze genetiche, base per base, secondo le istruzioni. I pozzi costruiscono ciascuno le loro sequenze in parallelo, come le galline che depongono le uova l’una accanto all’altra. Una volta che un determinato insieme di filamenti di DNA e terminato, viene lavato via in una gocciolina, come un bacio di Hershey ricco di informazioni. Puo essere riposto bagnato o asciugato per una conservazione a lungo termine. 

Per estrarre informazioni da quel DNA, un chip di sequenziamento misura quindi le impronte elettriche delle singole molecole di GATTACA. Quindi gli scienziati devono solo decodificare al contrario il DNA, mettere le stringhe nell’ordine giusto e correggere gli errori. 

Ecco! In futuro, questo potrebbe essere il modo in cui gli almanacchi degli agricoltori d’archivio vengono accantonati e poi ripresi.

L’altro team MIST e guidato dal Broad Institute, in collaborazione con l’Universita di Harvard e la societa DNA Script. “Quello che speriamo di fare e disporre di sistemi che siano abbastanza veloci da poter iniziare a distribuirli e archiviare dati che potrebbero non essere dati a cui e necessario accedere ogni giorno ma che si desidera assolutamente conservare”, afferma il responsabile del progetto Robert Nicol. Cita, come esempio innocuo, lo sport. “Ogni partita di baseball ha un rendimento molto elevato”, dice. “Ci sono telecamere ad altissima definizione in tutto lo stadio”. Catturare ogni giocatore, ogni spettatore. Forse, tra 20 anni, le persone vorranno un video delle reazioni del pubblico al super successo di una superstar in pensione. 

NESSUN PROGETTO e ancora completamente funzionante, ma entro la fine di MIST, tra un paio d’anni, i funzionari sperano che lo saranno. Per capire come funziona, IARPA si avvale di partner di test e valutazione: organizzazioni esterne con competenze correlate che creano una sorta di rubrica per giudicare la nuova tecnologia. 

Per MIST, uno di questi partner e il Los Alamos National Laboratory. Li, in un team guidato da Tracy Erkkila, gli scienziati scrivono un test per i team e quindi creano la chiave di risposta. In laboratorio, codificano i file in un archivio elettronico del DNA. Le squadre devono quindi riscrivere quell’archivio nel DNA. “Essenzialmente ci forniranno un mucchio di DNA liquido”, dice Erkkila. I valutatori leggeranno quindi le loro pile di DNA liquido sequenziandole. Quindi valutano i risultati, cercando gli errori di traduzione. Il laboratorio cerca anche di decodificare quel DNA nelle informazioni codificate originali.

Anche se Erkkila non puo fornire troppi dettagli sul test (sarebbe come un anziano che passa una vecchia copia di un quiz di 10a elementare a un nuovo secondo anno), dira che include video, audio, immagini dallo spazio Hubble Telescopio (perche, dice, “siamo innamorati di alcune di quelle immagini”) e un modello 3D di una statuetta di coniglio chiamata il coniglietto di Stanford. 

Gli animali, come succede, sono un motivo che Erkkila cita per perseguire le possibilita di archiviazione dei dati del DNA. Immagina di essere un ricercatore della fauna selvatica, dice, e di voler piantare una macchina fotografica nella remota Alaska. “Voglio registrare per due anni di seguito”, dice. “Come memorizzerai queste informazioni?” Quanto al motivo per cui le spie potrebbero volere la possibilita di aggrapparsi a enormi quantita di dati, non lo dice.

L’archiviazione dei dati del DNA non e uno scherzo, anche se lo era una volta. Quando Markowitz ha iniziato a esplorare se il DNA potesse essere adatto ai dati della comunita di intelligence nel 2016, non era un’idea popolare. “Le poche persone che lavoravano nello spazio del DNA, si alzavano a una conferenza e ne parlavano, e si facevano ridere dal podio”, dice. “Veramente. Da persone del settore dello storage convenzionale”.

Oggi, al contrario, la DNA Data Storage Alliance, un gruppo collaborativo di settore e accademico, conta decine di membri, tra cui IBM, Dell e Microsoft. “Nessuno”, dice Markowitz, “sta ridendo piu”. 

Se lo fossero, Markowtiz potrebbe forse ripensarci tra 50 anni, avendo tenuto un registro di quella sessione della conferenza, e di tutte le altre, in A, Gs, C e Ts, e sorridere compiaciuto.

RELATED ARTICLES

Most Popular