Un modello di intelligenza artificiale open source, chiamato Evo 2, sta aprendo nuove prospettive nello studio dei genomi. Addestrato su trilioni di basi di DNA provenienti dai tre domini della vita – batteri, archei ed eucarioti – il sistema è progettato per identificare caratteristiche genomiche complesse, tra cui regioni regolatorie, siti di splicing e sequenze codificanti. La sua capacità di analizzare grandi volumi di dati genetici rende Evo 2 uno strumento potenzialmente rivoluzionario per la ricerca genomica e per la comprensione delle basi molecolari delle malattie.
Evo 2, un modello AI open source per il genoma
Secondo Ars Technica, Evo 2 utilizza una rete neurale convoluzionale avanzata, chiamata StripedHyena 2, che permette di riconoscere pattern genetici anche nei genomi più complessi. A differenza dei batteri, in cui i geni correlati sono spesso organizzati in cluster semplici, gli eucarioti presentano geni interrotti da introni e sequenze regolatorie distribuite su centinaia di migliaia di basi. Questa complessità rende l’analisi manuale o basata su strumenti tradizionali difficile e soggetta a errori.
Con Evo 2, le caratteristiche interne dei genomi vengono rappresentate in modo automatico, facilitando la lettura di sequenze codificanti, bordi di introni e siti di legame di proteine regolatorie.
Training con trilioni di basi: genoma
Il sistema è stato addestrato in due fasi. Nella prima, sequenze di circa 8.000 basi ricche di elementi funzionali sono state utilizzate per insegnare al modello a riconoscere caratteristiche chiave del genoma. Successivamente, sono stati processati blocchi fino a un milione di basi per identificare strutture genomiche su larga scala.
Il training ha sfruttato il dataset OpenGenome2, contenente 8,8 trilioni di basi, esclusi i virus che infettano eucarioti per motivi di sicurezza. Sono state create due versioni: una con 7 miliardi di parametri, addestrata su 2,4 trilioni di basi, e una completa con 40 miliardi di parametri, sul dataset integrale.
Identificazione di geni e sequenze regolatorie: genoma
Evo 2 è in grado di individuare regioni codificanti, bordi di introni e alcuni elementi strutturali di proteine come alfa-eliche e foglietti beta, nonché mutazioni che interrompono la traduzione. Il sistema può anche rilevare siti di RNA funzionali non tradotti e valutare l’impatto di mutazioni singole, distinguendo quelle più gravi da quelle meno significative.
Queste capacità si estendono sia ai genomi di batteri e archei sia a quelli eucariotici, mostrando la capacità del modello di adattarsi alle diverse regole genetiche delle specie.
Open source e accessibilità
Tutto il materiale relativo a Evo 2 è stato rilasciato in open source, incluse i parametri del modello, il codice di training, il codice di inferenza e il dataset OpenGenome2. Questa scelta favorisce la collaborazione scientifica e consente a laboratori accademici e centri di ricerca con risorse limitate di accedere a strumenti avanzati, promuovendo l’innovazione e la sperimentazione continua nella comunità genomica.
Applicazioni in ricerca biomedica e prospettive future
Le potenzialità di Evo 2 comprendono l’annotazione automatizzata preliminare dei genomi, il monitoraggio di mutazioni in geni associati a malattie come BRCA2, e l’identificazione di elementi regolatori che possono differire tra tessuti o specie. Il modello potrebbe accelerare la scoperta di sequenze importanti e supportare analisi comparative, pur senza sostituire gli esperimenti biologici necessari per validare la funzione delle sequenze.
Sebbene Evo 2 mostri capacità notevoli, gli esperimenti per generare nuove proteine o sequenze regolatorie eucariotiche rimangono preliminari e limitati. La vera portata delle scoperte future dipenderà dall’utilizzo del modello da parte della comunità scientifica e dall’eventuale sviluppo di versioni specializzate per compiti specifici, come l’analisi di genomi tumorali o l’annotazione di sequenze recentemente sequenziate. La possibilità di identificare caratteristiche genomiche ancora sconosciute rende Evo 2 uno strumento di grande interesse per la genomica del futuro.