Quando quest’anno Deep Mind, con sede a Londra, ha svelato le strutture previste per circa 220 milioni di proteine, ha coperto quasi tutte le proteine ​​degli organismi conosciuti nei database del DNA. Ora, un altro gigante della tecnologia sta riempiendo la materia oscura del nostro universo proteico.
I ricercatori di Meta (ex Facebook, con sede a Menlo Park, California) hanno utilizzato l’intelligenza artificiale (AI) per prevedere le strutture di circa 600 milioni di proteine ​​di batteri, virus e altri microbi che non sono stati caratterizzati.
“Queste sono le strutture di cui sappiamo meno. Queste sono proteine ​​incredibilmente misteriose. Penso che offrano il potenziale per una grande comprensione della biologia”, afferma Alexander Rives, il capo della ricerca per il team proteico di Meta AI.
Il team ha generato le previsioni, descritte in un preprint del 1° novembre1, utilizzando un “modello linguistico di grandi dimensioni”, un tipo di intelligenza artificiale che costituisce la base per strumenti in grado di prevedere il testo da poche lettere o parole.
Normalmente i modelli linguistici vengono addestrati su grandi volumi di testo. Per applicarli alle proteine, Rives e i suoi colleghi hanno somministrato loro sequenze di proteine ​​note, che possono essere espresse da catene di 20 diversi aminoacidi, ciascuno rappresentato da una lettera. La rete ha quindi imparato a “completare automaticamente” le proteine ​​con una proporzione di amminoacidi oscurata.
‘Autocompletamento’ delle proteine
Questa formazione ha permeato la rete di una comprensione intuitiva delle sequenze proteiche, che contengono informazioni sulle loro forme, afferma Rives. Un secondo passaggio, ispirato dalla struttura proteica pionieristica AI AlphaFold di DeepMind, combina tali approfondimenti con informazioni sulle relazioni tra strutture e sequenze proteiche note, per generare strutture previste da sequenze proteiche.
La rete di Meta, chiamata ESMfold, non e cosi precisa come AlphaFold, ha riferito il team di Rives all’inizio di quest’estate2, ma e circa 60 volte piu veloce nel prevedere le strutture, dice. “Cio significa che possiamo scalare la previsione della struttura su database molto piu grandi”.
Come banco di prova, hanno deciso di utilizzare il loro modello su un database di DNA “metagenomico” sequenziato alla rinfusa da fonti ambientali tra cui suolo, acqua di mare, intestino umano, pelle e altri habitat microbici. La stragrande maggioranza delle voci del DNA, che codificano per potenziali proteine, provengono da organismi che non sono mai stati coltivati ​​e sono sconosciuti alla scienza.
In totale, il team Meta ha previsto le strutture di oltre 617 milioni di proteine. Lo sforzo e durato solo 2 settimane (AlphaFold puo richiedere minuti per generare una singola previsione). Le previsioni sono disponibili gratuitamente per chiunque, cosi come il codice alla base del modello, afferma Rives.
Di questi 617 milioni di previsioni, il modello ha ritenuto che piu di un terzo fosse di alta qualita, in modo tale che i ricercatori possano avere la certezza che la forma complessiva della proteina sia corretta e, in alcuni casi, possono discernere dettagli piu fini a livello atomico. Milioni di queste strutture sono completamente nuove e diverse da qualsiasi altra cosa nei database di strutture proteiche determinate sperimentalmente o nel database AlphaFold di previsioni di organismi noti.
Una buona parte del database AlphaFold e costituito da strutture quasi identiche tra loro e i database “metagenomici” “dovrebbero coprire gran parte dell’universo proteico mai visto prima”, afferma Martin Steinegger, biologo computazionale presso la Seoul National University. “Ora c’e una grande opportunita per svelare di piu l’oscurita.”
Sergey Ovchinnikov, un biologo evoluzionista dell’Universita di Harvard a Cambridge, nel Massachusetts, si interroga sulle centinaia di milioni di previsioni che ESMfold ha fatto con poca fiducia. Alcuni potrebbero non avere una struttura definita, almeno isolatamente, mentre altri potrebbero essere DNA non codificanti scambiati per materiale codificante proteine. “Sembra che ci sia ancora piu della meta dello spazio proteico di cui non sappiamo nulla”, afferma.
Piu snello, piu semplice, piu economico
Burkhard Rost, un biologo computazionale presso l’Universita Tecnica di Monaco di Baviera in Germania, e impressionato dalla combinazione di velocita e precisione del modello di Meta. Ma si chiede se offra davvero un vantaggio rispetto alla precisione di AlphaFold, quando si tratta di prevedere le proteine ​​da database metagenomici. I metodi di previsione basati su modelli linguistici, incluso uno sviluppato dal suo team3, sono piu adatti per determinare rapidamente come le mutazioni alterano la struttura delle proteine, cosa che non e possibile con AlphaFold. “Vedremo la previsione della struttura diventare piu snella, piu semplice e meno costosa e questo aprira la porta a nuove cose”, afferma.
DeepMind non ha attualmente in programma di includere le previsioni della struttura metagenomica nel suo database, ma non lo ha escluso per versioni future, secondo un rappresentante dell’azienda. Ma Steinegger e i suoi collaboratori hanno utilizzato una versione di AlphaFold per prevedere le strutture di circa 30 milioni di proteine ​​metagenomiche. Sperano di trovare nuovi tipi di virus a RNA cercando nuove forme dei loro enzimi di copiatura del genoma.
Steinegger vede la materia oscura della biologia della pesca a strascico come un ovvio passo successivo per tali strumenti. “Penso che presto avremo un’esplosione nell’analisi di queste strutture metagenomiche”.