Le proteine sono una parte essenziale del mantenimento in funzione degli organismi viventi. Aiutano a riparare le cellule, eliminare i rifiuti e trasmettere le corrispondenze da un’estremita all’altra del corpo.
C’e stato molto lavoro tra gli scienziati per decifrare le strutture e le funzioni delle proteine e, a tal fine, il team di ricerca sull’intelligenza artificiale di Meta ha annunciato oggi di aver utilizzato un modello in grado di prevedere la struttura 3D delle proteine in base alle loro sequenze di amminoacidi. A differenza dei precedenti lavori nello spazio, come quello di DeepMind, l’IA di Meta si basa su un modello di apprendimento delle lingue piuttosto che su un algoritmo di corrispondenza di forma e sequenza. Meta non solo pubblichera il suo preprint su questa ricerca, ma aprira sia il modello che il database delle proteine alla comunita di ricerca e all’industria.
Innanzitutto, per contestualizzare l’importanza di comprendere le forme delle proteine, ecco una breve lezione di biologia. Alcune sequenze di triplette di nucleotidi provenienti da geni vengono tradotte in amminoacidi da una molecola nella cellula chiamata ribosoma. Le proteine sono catene di aminoacidi che si sono assortite in forme e configurazioni uniche. Un campo emergente della scienza chiamato metagenomica sta usando il sequenziamento genico per scoprire, catalogare e annotare nuove proteine nel mondo naturale.
Il modello AI di Meta e un nuovo approccio di ripiegamento proteico ispirato a modelli linguistici di grandi dimensioni che mira a prevedere le strutture di centinaia di milioni di sequenze proteiche nei database di metagenomica. Comprendere le forme che queste proteine formano fornira ai ricercatori indizi su come funzionano e con quali molecole interagiscono.
“Abbiamo creato la prima caratterizzazione su larga scala delle proteine metagenomiche. Stiamo rilasciando il database come risorsa scientifica aperta che ha oltre 600 milioni di previsioni sulle strutture delle proteine”, afferma Alex Rives, ricercatore presso Meta AI. “Questo copre alcune delle proteine meno conosciute la fuori”.
Storicamente, i biologi computazionali hanno utilizzato modelli evolutivi per prevedere le strutture delle proteine. Le proteine, prima di essere piegate, sono filamenti lineari di amminoacidi. Quando la proteina si ripiega in strutture complesse, alcune sequenze che possono apparire distanti nel filamento lineare potrebbero improvvisamente essere molto vicine l’una all’altra.
“Puoi pensare a questo come a due pezzi di un puzzle in cui devono combaciare. L’evoluzione non puo scegliere queste due posizioni indipendentemente perche se si trova il pezzo sbagliato, la struttura andrebbe in pezzi”, afferma Rives. “Quello che significa allora e che se si osservano i modelli delle sequenze proteiche, essi contengono informazioni sulla struttura ripiegata perche posizioni diverse nella sequenza varieranno l’una con l’altra. Cio riflettera qualcosa sulle proprieta biologiche sottostanti della proteina”.
Nel frattempo, l’approccio innovativo di DeepMind, che ha debuttato per la prima volta nel 2018, si basa principalmente su un metodo chiamato allineamento di sequenze multiple. Fondamentalmente esegue una ricerca su enormi database evolutivi di sequenze proteiche per trovare proteine correlate a quella per cui sta facendo una previsione.
“La differenza nel nostro approccio e che stiamo facendo la previsione direttamente dalla sequenza di amminoacidi, piuttosto che da questo insieme di proteine correlate multiple e guardando i modelli”, dice Rives. “Il modello linguistico ha appreso questi modelli in un modo diverso. Cio significa che possiamo semplificare notevolmente l’architettura di previsione della struttura perche non e necessario elaborare questo insieme di sequenze e non e necessario cercare sequenze correlate.
Come hanno addestrato questo modello per essere in grado di svolgere questo compito? Ci sono voluti due passaggi. In primo luogo, hanno dovuto pre-addestrare il modello linguistico su un gran numero di proteine che hanno strutture diverse, provengono da diverse famiglie di proteine e sono prese in tutta la linea temporale evolutiva. Hanno usato una versione del modello del linguaggio mascherato, in cui hanno cancellato parti della sequenza di amminoacidi e hanno chiesto all’algoritmo di riempire quegli spazi vuoti. “La formazione linguistica e un apprendimento non supervisionato, si allena solo su sequenze”, spiega Rives. “In questo modo questo modello apprende i modelli attraverso questi milioni di sequenze proteiche”.
Quindi, hanno congelato il modello linguistico e hanno addestrato un modulo pieghevole su di esso. Nella seconda fase della formazione, utilizzano l’apprendimento supervisionato. Il set di dati sull’apprendimento supervisionato e costituito da un insieme di strutture della banca dati delle proteine che i ricercatori di tutto il mondo hanno presentato. Cio viene quindi aumentato con le previsioni fatte utilizzando AlphaFold (la tecnologia di DeepMind). “Questo modulo pieghevole prende l’input del modello linguistico e fondamentalmente emette le coordinate atomiche 3D della proteina [dalle sequenze di amminoacidi]”. dice Rives. “Questo produce queste rappresentazioni e quelle vengono proiettate nella struttura usando la testa pieghevole”.
Rives immagina che questo modello potrebbe essere utilizzato in applicazioni di ricerca come la comprensione della funzione del sito attivo di una proteina a livello biochimico, che e un’informazione che potrebbe essere molto pertinente per lo sviluppo e la scoperta di farmaci. Pensa anche che l’IA potrebbe anche essere utilizzata per progettare nuove proteine in futuro.