Google DeepMind punta a ridefinire il panorama della generazione video con l’introduzione di Veo 2, il nuovo modello di intelligenza artificiale che promette di superare le capacità attuali di modelli concorrenti, come Sora di OpenAI.
Veo 2 vs Sora: ecco le sue caratteristiche
Veo 2, successore del modello Veo, si distingue per la capacità di creare video della durata di oltre due minuti e risoluzioni fino a 4k (4096 x 2160 pixel). Questi numeri rappresentano un balzo in avanti rispetto a Sora, che può generare video di soli 20 secondi a una risoluzione massima di 1080p.
Tuttavia, per ora la versione disponibile al pubblico tramite lo strumento sperimentale VideoFX di Google è limitata a video di 8 secondi in 720p, con un accesso ancora vincolato da una lista d’attesa.
A Tech Crunch Eli Collins, vicepresidente di prodotto di DeepMind, ha detto che l’obiettivo di Google è integrare le capacità di Veo 2 in soluzioni pratiche per l’ecosistema Google e renderlo disponibile sulla piattaforma Vertex AI per gli sviluppatori, una volta che il modello sarà ottimizzato per un utilizzo su larga scala.
Caratteristiche innovative: fisica, motion e cinepresa
Veo 2 introduce significativi miglioramenti nella modellazione della fisica e nel controllo della telecamera. Il modello può generare clip in cui vengono rappresentati in maniera realistica movimenti fluidi e dinamiche complesse come i riflessi e le ombre.
Anche la nitidezza delle immagini è migliorata: ora Veo 2 garantisce dettagli molto più definiti, specialmente in scene con movimenti rapidi. A ciò si aggiunge anche la nuova capacità di simulare effetti cinematografici avanzati, come l’uso di lenti diverse e la riproduzione di espressioni umane più sfumate.
Stando a Tech Crunch, dai test condotti da DeepMind emerge che i video prodotti da Veo 2 sono in grado di emulare addirittura lo stile della Pixar, nonché di rappresentare texture complesse come i liquidi viscosi.
Un dataset protetto dalla tecnologia SynthID
Veo 2 è stato addestrato su un vasto set di video-descrizioni, ma DeepMind non ha specificato le fonti utilizzate, lasciando ipotizzare l’uso di piattaforme come YouTube, di proprietà di Google.
Inoltre, DeepMind ha implementato una serie di filtri per contenuti violenti o espliciti. Inoltre ha adottato la tecnologia SynthID per inserire watermark invisibili nei video generati. Tutti sistemi che, purtroppo, non garantiscono una protezione totale contro i deepfake.
In parallelo al lancio del nuovo Veo, DeepMind ha annunciato dei miglioramenti per Imagen 3, il modello di generazione immagini. Questa nuova versione offre una maggiore fedeltà ai prompt, dettagli più ricchi e un’interfaccia aggiornata per semplificare la personalizzazione delle immagini.