Dal team Fundamental AI Research (FAIR) di Meta arrivano nuovi modelli AI non solo specializzati nella generazione di testo e audio: addirittura uno di questi è focalizzato nel watermarking, ovvero nel rilevare le attività generate dall’AI e nell’aggiungere appositamente filigrane indicatrici.
Meta AI: ecco i nuovi modelli per foto, audio e watermarking
Di recente Meta ha annunciato il rilascio di questi modelli davvero innovativi, che vanno oltre all’attuale architettura propria degli LLMs, ovvero i modelli di linguaggio di grandi dimensioni già utilizzati per generare testi creativi, elaborare idee e rispondere a domande.
Se il metodo tradizionale di addestramento prevede la predizione di una parola alla volta, il nuovo approccio di Meta per costruire LLMs rende i modelli migliori e più veloci. Al centro dell’innovazione c’è infatti la predizione multi-token, che addestra i modelli di linguaggio a prevedere più parole future contemporaneamente.
E questi sono i risultati:
Chameleon, sempre più combinazioni di testo e immagini
Chameleon è una famiglia di modelli multimodali che possono comprendere e generare sia immagini che testo simultaneamente. Diversamente dai modelli di linguaggio di grandi dimensioni tradizionali, che solitamente producono risultati unimodali (ad esempio, trasformando il testo in immagini), Chameleon può elaborare e produrre qualsiasi combinazione di testo e immagini.
Le potenzialità di Chameleon sono infinite: si possono generare didascalie creative per immagini o utilizzare una combinazione di testi e immagini per creare nuove scene.
JASCO, come generare audio migliore
Il nuovo modello JASCO di Meta è in grado di accettare vari input, come accordi o ritmi, non solo quelli testuali come la maggior parte dei modelli oggi disponibili. Il risultato è un migliore controllo sui risultati musicali generati.
Questo permette l’incorporazione di simboli e audio nello stesso modello di generazione musicale, offrendo una qualità di generazione comparabile agli standard di riferimento, ma con un controllo significativamente migliore e più versatile.
AudioSeal, il watermarking secondo Meta AI
Un’altra innovazione di Meta è AudioSeal, la prima tecnica di watermarking audio progettata specificamente per il rilevamento localizzato del parlato generato dall’AI.
AudioSeal permette di individuare i segmenti generati dall’AI all’interno di un frammento audio più lungo, e, a differenza dei metodi tradizionali che si basano su algoritmi di decodifica complessi, l’approccio localizzato di AudioSeal consente un rilevamento più veloce ed efficiente, fino a 485 volte più rapido rispetto ai metodi precedenti, rendendolo adatto per applicazioni su larga scala e in tempo reale.