Come i fratelli inventori del cinematografo, Google propone qualcosa che in effetti reinventa il modo di generare i video con l’intelligenza artificiale: Lumiere. Oltre a creare video divertenti di animali in situazioni insolite, come pattinare o suonare il pianoforte, Lumiere è ritenuto uno dei generatori video AI più avanzati mai dimostrati, soprattutto per la sua capacità di gestire spazio e tempo simultaneamente.
Ma vediamo bene cos’è, e come funziona rispetto a tutti gli altri generatori AI di immagini e video.
Cos’è Google Lumiere, l’AI dei video di ultima generazione
Come riporta ArsTechnica, Google ha presentato il suo nuovo generatore di video AI chiamato Lumiere. Descritto come “un modello di diffusione spazio-temporale per la generazione di video realistici“, Lumiere utilizza un’architettura Spazio-Tempo U-Net che consente la generazione dell’intera durata temporale di un video in un unico passaggio, distinguendosi dai modelli video tradizionali che sintetizzano fotogrammi chiave seguiti da una super-risoluzione temporale.
Questo approccio consente la creazione di video dall’inizio alla fine in un singolo processo fluido, eliminando la necessità di assemblare parti o fotogrammi separati.
Il modello di addestramento di Lumiere, denominato T2V (testo in video), è stato allenato su un set di dati contenente 30 milioni di video insieme alle relative didascalie di testo. I video erano lunghi 80 fotogrammi a 16 fps (5 secondi), e il modello di base è stato addestrato a una risoluzione di 128×128 pixel.
Nonostante le promettenti capacità di Lumiere, Google non ha ancora dichiarato quando o se il pubblico avrà accesso a questo nuovo generatore di video AI.
Come funziona l’AI generativa di video Google
Supponiamo di inserire in Lumiere la foto di un proprio animale domestico o di un oggetto inanimato come un balocco. E gli chiediamo di farlo camminare da un punto A al punto B. Creando un’unica sequenza spazio-temporale, Lumiere genera un filmato in cui ogni attività è strettamente legata l’un l’altra, con sintonia maggiore.
Riporta Ars, altre a generare video di animali in situazioni divertenti, Lumiere può eseguire diverse altre funzioni creative, come ad esempio:
- la generazione di testo in video,
- la conversione di immagini fisse in video,
- la creazione di video in stili specifici usando immagini di riferimento,
- l’applicazione di editing video coerente basato su testo,
- la creazione di cinemagraph animando specifiche regioni di un’immagine,
- il video inpainting, che consente di modificare dettagli come il tipo di abbigliamento indossato da una persona.
Anche se i video prodotti da Lumiere sono attualmente a bassa risoluzione (1024×1024 pixel per cinque secondi), i ricercatori di Google sostengono che, nonostante le limitazioni, sono stati preferiti rispetto ai modelli di sintesi video AI esistenti in uno studio sugli utenti.
Tuttavia, l’uso di tecnologie di sintesi video come Lumiere solleva preoccupazioni riguardo al possibile abuso per la creazione di contenuti falsi o dannosi. I ricercatori riconoscono questo rischio e sottolineano l’importanza dello sviluppo e dell’applicazione di strumenti per rilevare errori e utilizzi dannosi per garantire un utilizzo sicuro ed etico di tali tecnologie.