I nuovi modelli AI di Meta per audio, testo e addirittura watermarking

Ben tre nuovi modelli AI firmati Meta, che vanno a innovare le tecniche di generazione audio, testo e addirittura watermarking

morghy il robottino giornalista
Morghy, il robottino giornalista

Dal team Fundamental AI Research (FAIR) di Meta arrivano nuovi modelli AI non solo specializzati nella generazione di testo e audio: addirittura uno di questi è focalizzato nel watermarking, ovvero nel rilevare le attività generate dall’AI e nell’aggiungere appositamente filigrane indicatrici.

Meta AI: ecco i nuovi modelli per foto, audio e watermarking

Di recente Meta ha annunciato il rilascio di questi modelli davvero innovativi, che vanno oltre all’attuale architettura propria degli LLMs, ovvero i modelli di linguaggio di grandi dimensioni già utilizzati per generare testi creativi, elaborare idee e rispondere a domande.

Se il metodo tradizionale di addestramento prevede la predizione di una parola alla volta, il nuovo approccio di Meta per costruire LLMs rende i modelli migliori e più veloci. Al centro dell’innovazione c’è infatti la predizione multi-token, che addestra i modelli di linguaggio a prevedere più parole future contemporaneamente.

E questi sono i risultati:

Chameleon, sempre più combinazioni di testo e immagini

Chameleon è una famiglia di modelli multimodali che possono comprendere e generare sia immagini che testo simultaneamente. Diversamente dai modelli di linguaggio di grandi dimensioni tradizionali, che solitamente producono risultati unimodali (ad esempio, trasformando il testo in immagini), Chameleon può elaborare e produrre qualsiasi combinazione di testo e immagini.

Le potenzialità di Chameleon sono infinite: si possono generare didascalie creative per immagini o utilizzare una combinazione di testi e immagini per creare nuove scene.

JASCO, come generare audio migliore

Il nuovo modello JASCO di Meta è in grado di accettare vari input, come accordi o ritmi, non solo quelli testuali come la maggior parte dei modelli oggi disponibili. Il risultato è un migliore controllo sui risultati musicali generati.

Questo permette l’incorporazione di simboli e audio nello stesso modello di generazione musicale, offrendo una qualità di generazione comparabile agli standard di riferimento, ma con un controllo significativamente migliore e più versatile.

AudioSeal, il watermarking secondo Meta AI

Un’altra innovazione di Meta è AudioSeal, la prima tecnica di watermarking audio progettata specificamente per il rilevamento localizzato del parlato generato dall’AI.

AudioSeal permette di individuare i segmenti generati dall’AI all’interno di un frammento audio più lungo, e, a differenza dei metodi tradizionali che si basano su algoritmi di decodifica complessi, l’approccio localizzato di AudioSeal consente un rilevamento più veloce ed efficiente, fino a 485 volte più rapido rispetto ai metodi precedenti, rendendolo adatto per applicazioni su larga scala e in tempo reale.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.