Evo 2, l’AI open source che legge il genoma

Un modello di intelligenza artificiale open source, chiamato Evo 2, sta aprendo nuove prospettive nello studio dei genomi. Addestrato su trilioni di basi di DNA provenienti dai tre domini della vita – batteri, archei ed eucarioti – il sistema è progettato per identificare caratteristiche genomiche complesse, tra cui regioni regolatorie, siti di splicing e sequenze codificanti. La sua capacità di analizzare grandi volumi di dati genetici rende Evo 2 uno strumento potenzialmente rivoluzionario per la ricerca genomica e per la comprensione delle basi molecolari delle malattie.

Evo 2, un modello AI open source per il genoma

Secondo Ars Technica, Evo 2 utilizza una rete neurale convoluzionale avanzata, chiamata StripedHyena 2, che permette di riconoscere pattern genetici anche nei genomi più complessi. A differenza dei batteri, in cui i geni correlati sono spesso organizzati in cluster semplici, gli eucarioti presentano geni interrotti da introni e sequenze regolatorie distribuite su centinaia di migliaia di basi. Questa complessità rende l’analisi manuale o basata su strumenti tradizionali difficile e soggetta a errori.

Con Evo 2, le caratteristiche interne dei genomi vengono rappresentate in modo automatico, facilitando la lettura di sequenze codificanti, bordi di introni e siti di legame di proteine regolatorie.

Training con trilioni di basi: genoma

Il sistema è stato addestrato in due fasi. Nella prima, sequenze di circa 8.000 basi ricche di elementi funzionali sono state utilizzate per insegnare al modello a riconoscere caratteristiche chiave del genoma. Successivamente, sono stati processati blocchi fino a un milione di basi per identificare strutture genomiche su larga scala.

Il training ha sfruttato il dataset OpenGenome2, contenente 8,8 trilioni di basi, esclusi i virus che infettano eucarioti per motivi di sicurezza. Sono state create due versioni: una con 7 miliardi di parametri, addestrata su 2,4 trilioni di basi, e una completa con 40 miliardi di parametri, sul dataset integrale.

Identificazione di geni e sequenze regolatorie: genoma

Evo 2 è in grado di individuare regioni codificanti, bordi di introni e alcuni elementi strutturali di proteine come alfa-eliche e foglietti beta, nonché mutazioni che interrompono la traduzione. Il sistema può anche rilevare siti di RNA funzionali non tradotti e valutare l’impatto di mutazioni singole, distinguendo quelle più gravi da quelle meno significative.

Queste capacità si estendono sia ai genomi di batteri e archei sia a quelli eucariotici, mostrando la capacità del modello di adattarsi alle diverse regole genetiche delle specie.

Open source e accessibilità

Tutto il materiale relativo a Evo 2 è stato rilasciato in open source, incluse i parametri del modello, il codice di training, il codice di inferenza e il dataset OpenGenome2. Questa scelta favorisce la collaborazione scientifica e consente a laboratori accademici e centri di ricerca con risorse limitate di accedere a strumenti avanzati, promuovendo l’innovazione e la sperimentazione continua nella comunità genomica.

Applicazioni in ricerca biomedica e prospettive future

Le potenzialità di Evo 2 comprendono l’annotazione automatizzata preliminare dei genomi, il monitoraggio di mutazioni in geni associati a malattie come BRCA2, e l’identificazione di elementi regolatori che possono differire tra tessuti o specie. Il modello potrebbe accelerare la scoperta di sequenze importanti e supportare analisi comparative, pur senza sostituire gli esperimenti biologici necessari per validare la funzione delle sequenze.

Sebbene Evo 2 mostri capacità notevoli, gli esperimenti per generare nuove proteine o sequenze regolatorie eucariotiche rimangono preliminari e limitati. La vera portata delle scoperte future dipenderà dall’utilizzo del modello da parte della comunità scientifica e dall’eventuale sviluppo di versioni specializzate per compiti specifici, come l’analisi di genomi tumorali o l’annotazione di sequenze recentemente sequenziate. La possibilità di identificare caratteristiche genomiche ancora sconosciute rende Evo 2 uno strumento di grande interesse per la genomica del futuro.

Evo 2, un modello AI open source per il genoma

Training con trilioni di basi: genoma

Identificazione di geni e sequenze regolatorie: genoma

Open source e accessibilità

Applicazioni in ricerca biomedica e prospettive future

Iscriviti alla newsletter

Articoli correlati