Google I/O 2024, svelate tutte le principali novità: Veo, Imagen 3 e tanto altro

Dalla conferenza annuale Google I/O 2024 arrivano un sacco di novità, tutte a base di AI. Come Veo, Imagen 3 e tanto altro!

Redazione

Dall’evento principale di Big G, Google I/O 2024, sono trapelate diverse novità , soprattutto a livello digital e AI. C’era molta attesa per questo evento, e alla fine è successo. Ora tutti gli appassionati dell’ecosistema Google potranno salutare le principali novità, quali Veo, Imagen 3 e le ultime novità della sua intelligenza artificiale, Gemini.

Google I/O 2024: arriva Veo, il rivale di Sora

Google punta a competere contro Sora di OpenAI. E lo fa con Veo, un modello di intelligenza artificiale in grado di creare video in 1080p della durata di circa un minuto a partire da un prompt di testo.

Presentato durante la conferenza per sviluppatori Google I/O 2024, Veo può catturare diversi stili visivi e cinematografici, inclusi scatti di paesaggi e time-lapse, e apportare modifiche e aggiustamenti alle riprese già generate.

Che cos’è Veo

Riporta TechCrunch, Veo si basa sul lavoro commerciale preliminare di Google nella generazione di video, mostrato in anteprima ad aprile, che ha utilizzato la famiglia di modelli generativi Imagen per creare clip video in loop.

Ma a differenza dello strumento basato su Imagen 2, che poteva creare solo video di bassa risoluzione della durata di pochi secondi, Veo sembra essere ancora più competitivo con i principali modelli di generazione video di oggi, come Sora, Pika, Runway e Irreverent Labs.

Come funziona Veo

Riferisce TechCrunch, Veo è stato addestrato su molti filmati. Questo è generalmente come funzionano i modelli di intelligenza artificiale generativi: forniti esempi dopo esempi di qualche forma di dati, i modelli individuano i pattern nei dati che consentono loro di generare nuovi video.

Veo viene descritto da Google come “piuttosto controllabile”: il modello comprende abbastanza bene i movimenti della telecamera e gli effetti visivi speciali dai prompt (ad esempio “panoramica”, “zoom” ed “esplosione”). Inoltre, come Sora, Veo ha in qualche modo una comprensione della fisica (dinamica dei fluidi, la gravità…) che contribuisce al realismo dei video che genera.

Ancora non disponibile al pubblico, Google ha già reso Veo disponibile per alcuni creatori selezionati.

Google I/O 2024: ecco Imagen 3, il concorrente di Stable Diffusion

Google sta potenziando la sua tecnologia di generazione di immagini per stare al passo con i concorrenti. E lo fa con Imagen 3, l’ultimo modello della sua famiglia di generatori AI di immagini.

Rispetto alla versione 2, Imagen 3 comprende in modo più accurato i prompt di testo che traduce in immagini. Ed è più creativo e dettagliato rispetto alle generazioni precedenti, con meno rischio di allucinazioni.

E non c’è da preoccuparsi in merito ai deepfake: Google afferma che Imagen 3 utilizzerà SynthID, un approccio sviluppato da DeepMind per applicare watermark crittografici invisibili ai media.

Le registrazioni per Imagen 3 sono disponibili in anteprima nello strumento ImageFX di Google. Sempre Big G afferma che il modello arriverà “presto” per sviluppatori e clienti corporate che utilizzano Vertex AI, la piattaforma di sviluppo generativo di intelligenza artificiale aziendale di Google.

Google I/O 2024: le ultime novità su Google Gemini

Oltre alle piccole e grandi rivelazioni dal comparto video a intelligenza artificiale, al Google I/O arrivano alcuni interessanti aggiornamenti anche dalla sua intelligenza artificiale d’elezione, ovvero Gemini. Segnaliamo qui tutte le novità principali.

Gemini 1.5 Pro

In arrivo un altro aggiornamento: ora Gemini può ora analizzare documenti più lunghi, codici sorgente, video e registrazioni audio rispetto al passato.

Addirittura, la nuova versione di Gemini 1.5 Pro, il modello di punta attuale dell’azienda, sembra possa elaborare fino a 2 milioni di token. È letteralmente il doppio dell’importo precedente. Con questo livello di efficienza, la nuova versione di Gemini 1.5 Pro può garantire l’input più grande di qualsiasi modello disponibile commercialmente.

Gemini Live

L’azienda ha presentato un’esperienza nuova, Gemini Live, che consente agli utenti di avere conversazioni vocali “approfondite” con Gemini sui loro smartphone.

Gli utenti possono interrompere Gemini mentre il chatbot sta parlando, in modo da porgli domande e tanto altro. Si adatterà ai modelli di linguaggio in tempo reale, al punto che Gemini può vedere e rispondere agli ambienti degli utenti, sia tramite foto che video catturati dalle fotocamere dei loro smartphone.

Google afferma che utilizza le tecniche più recenti nel campo dell’intelligenza artificiale generativa per offrire un’analisi delle immagini superiore e meno soggetta a errori, combinando queste tecniche con un motore vocale migliorato.

Gemini Nano

Google sta anche sviluppando Gemini Nano, il modello più piccolo della sua intelligenza artificiale, direttamente nel client desktop di Chrome, a partire dalla versione Chrome 126.

Così gli sviluppatori potranno utilizzare il modello su dispositivo per alimentare le proprie funzionalità di intelligenza artificiale. Come lo strumento Help Me Write (“aiutami a scrivere”) già presente in Workspace Lab in Gmail.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.