Meta AI: ecco i nuovi modelli per foto, audio e watermarking

Dal team Fundamental AI Research (FAIR) di Meta arrivano nuovi modelli AI non solo specializzati nella generazione di testo e audio: addirittura uno di questi è focalizzato nel watermarking, ovvero nel rilevare le attività generate dall’AI e nell’aggiungere appositamente filigrane indicatrici.

Meta AI: ecco i nuovi modelli per foto, audio e watermarking

Di recente Meta ha annunciato il rilascio di questi modelli davvero innovativi, che vanno oltre all’attuale architettura propria degli LLMs, ovvero i modelli di linguaggio di grandi dimensioni già utilizzati per generare testi creativi, elaborare idee e rispondere a domande.

Se il metodo tradizionale di addestramento prevede la predizione di una parola alla volta, il nuovo approccio di Meta per costruire LLMs rende i modelli migliori e più veloci. Al centro dell’innovazione c’è infatti la predizione multi-token, che addestra i modelli di linguaggio a prevedere più parole future contemporaneamente.

Today is a good day for open science.

As part of our continued commitment to the growth and development of an open ecosystem, today at Meta FAIR we’re announcing four new publicly available AI models and additional research artifacts to inspire innovation in the community and… pic.twitter.com/8PVczc0tNV
— AI at Meta (@AIatMeta) June 18, 2024

E questi sono i risultati:

Chameleon, sempre più combinazioni di testo e immagini

Chameleon è una famiglia di modelli multimodali che possono comprendere e generare sia immagini che testo simultaneamente. Diversamente dai modelli di linguaggio di grandi dimensioni tradizionali, che solitamente producono risultati unimodali (ad esempio, trasformando il testo in immagini), Chameleon può elaborare e produrre qualsiasi combinazione di testo e immagini.

Le potenzialità di Chameleon sono infinite: si possono generare didascalie creative per immagini o utilizzare una combinazione di testi e immagini per creare nuove scene.

JASCO, come generare audio migliore

Il nuovo modello JASCO di Meta è in grado di accettare vari input, come accordi o ritmi, non solo quelli testuali come la maggior parte dei modelli oggi disponibili. Il risultato è un migliore controllo sui risultati musicali generati.

Questo permette l’incorporazione di simboli e audio nello stesso modello di generazione musicale, offrendo una qualità di generazione comparabile agli standard di riferimento, ma con un controllo significativamente migliore e più versatile.

AudioSeal, il watermarking secondo Meta AI

Un’altra innovazione di Meta è AudioSeal, la prima tecnica di watermarking audio progettata specificamente per il rilevamento localizzato del parlato generato dall’AI.

AudioSeal permette di individuare i segmenti generati dall’AI all’interno di un frammento audio più lungo, e, a differenza dei metodi tradizionali che si basano su algoritmi di decodifica complessi, l’approccio localizzato di AudioSeal consente un rilevamento più veloce ed efficiente, fino a 485 volte più rapido rispetto ai metodi precedenti, rendendolo adatto per applicazioni su larga scala e in tempo reale.

I nuovi modelli AI di Meta per audio, testo e addirittura watermarking