Gemini Omni, l’AI che crea e modifica video con una conversazione

Il nuovo modello combina testo, immagini, audio e video per creare contenuti realistici modificabili con semplici comandi vocali

Redazione

Google amplia le capacità multimodali di Gemini con il debutto di Gemini Omni, una nuova famiglia di modelli progettata per unire ragionamento, comprensione del mondo reale e generazione creativa di contenuti. Dopo il successo di Nano Banana nella creazione e modifica di immagini, l’azienda punta ora sui video generati dall’intelligenza artificiale, introducendo strumenti che permettono di lavorare contemporaneamente con testo, immagini, audio e clip video.

Il primo modello disponibile è Gemini Omni Flash, già in fase di rilascio nell’app Gemini, in Google Flow e su YouTube Shorts. Nei prossimi mesi arriverà anche il supporto per nuovi formati di output, tra cui immagini e audio.

Video editing con il linguaggio naturale

Una delle principali novità di Gemini Omni riguarda la possibilità di modificare video semplicemente parlando con l’AI. Le istruzioni vengono comprese in sequenza e ogni modifica si integra con quelle precedenti, mantenendo coerenza narrativa, continuità visiva e rispetto delle leggi fisiche.

Google spiega che gli utenti potranno trasformare scene esistenti cambiando dettagli specifici oppure rivoluzionando completamente l’ambiente. Sarà possibile, ad esempio, trasformare una scultura in bolle di sapone, alterare oggetti e personaggi o aggiungere nuovi elementi alla scena.

L’AI consente anche di rielaborare le azioni presenti in un filmato già registrato. Un esempio mostrato da Google riguarda un video in cui uno specchio diventa liquido al tocco di una persona, mentre il braccio dell’individuo si trasforma in materiale riflettente.

Le modifiche possono essere effettuate in più passaggi successivi, senza perdere la struttura originale del video. L’utente può quindi intervenire su inquadrature, ambientazioni, stile visivo e dettagli specifici mantenendo continuità narrativa.

Più realismo grazie alla conoscenza di Gemini

Secondo Google, Gemini Omni non si limita a creare scene fotorealistiche, ma è in grado di “ragionare” su ciò che dovrebbe accadere in una determinata situazione. Il modello sfrutta infatti la conoscenza accumulata da Gemini in campi come fisica, scienza, storia e contesto culturale.

L’azienda sottolinea che Omni dispone di una comprensione più accurata di concetti come gravità, energia cinetica e dinamica dei fluidi. Questo dovrebbe tradursi in scene più credibili e movimenti più realistici nei video generati.

Tra gli esempi mostrati da Google compare una biglia che percorre una pista in stile “chain reaction”, con movimenti fluidi e continui, oltre a video educativi creati automaticamente a partire da semplici prompt testuali.

L’AI può inoltre combinare creatività e conoscenza semantica. Un esempio illustrato dall’azienda mostra un video dedicato all’alfabeto, dove per ogni lettera viene associato un oggetto specifico — come una capibara per la C o una lava lamp per la L — accompagnato da animazioni e musica sincronizzata.

Input multimodali: immagini, audio e video insieme

Gemini Omni è stato progettato per lavorare con qualsiasi combinazione di input. Gli utenti possono caricare immagini, video, testo o riferimenti audio per ottenere un unico output coerente.

Nella fase iniziale saranno supportati soprattutto riferimenti vocali per l’audio, ma Google ha confermato che in futuro arriveranno ulteriori tipologie di input sonori.

L’azienda evidenzia anche la possibilità di partire da materiali già esistenti. Personaggi, scenografie, disegni o clip registrate possono essere utilizzati come base per creare nuovi contenuti mantenendo uno stile coerente.

Tra gli esempi diffusi compare un video in stile retro-futuristico che evolve gradualmente durante una camminata, sincronizzando musica e trasformazioni visive. Un altro esempio mostra l’aggiunta di effetti animati attorno a uno skateboard senza modificare il resto della scena.

Arrivano anche gli avatar AI personali

Google prevede che una delle funzioni più richieste sarà quella legata alla modifica di audio e parlato. Per questo motivo sta lavorando a strumenti che consentano di creare video utilizzando la propria voce attraverso avatar digitali basati sull’intelligenza artificiale.

Gli avatar AI permetteranno di generare clip in cui compaiono una versione digitale dell’utente e la sua voce sintetizzata.

Sul fronte della trasparenza, tutti i contenuti creati con Omni includeranno la filigrana invisibile SynthID e le credenziali C2PA per la verifica dell’origine dei contenuti. Google afferma che sarà possibile verificare se un video è stato generato tramite Gemini Omni usando l’app Gemini, Gemini in Chrome e la Ricerca Google.

Disponibilità di Gemini Omni Flash

Gemini Omni Flash è disponibile da oggi per gli abbonati Google AI Pro e Google AI Ultra attraverso l’app Gemini e Google Flow.

A partire da questa settimana, il modello sarà accessibile gratuitamente anche agli utenti di YouTube Shorts e dell’app YouTube Create.

Google ha inoltre annunciato che nelle prossime settimane Omni verrà reso disponibile anche a sviluppatori e aziende tramite API.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.