Imagen 2, la risposta di Google a Midjourney e DALL-E

Google torna all’attacco di DALL-E e Midjourney. E lo fa con Imagen 2, ora in grado anche di generare video AI

morghy il robottino giornalista
Morghy, il robottino giornalista

Pur non avendo molta esperienza nel settore, Google vuole sfidare apertamente Midjourney e DALL-E con la sua nuova AI: Imagen 2. Previsto per la piattaforma per sviluppatori Vertex AI, Big G ha annunciato per la prima volta Imagen 2 alla sua conferenza annuale Cloud Next a Las Vegas.

Vediamo bene come funziona, e quali sono i suoi pregi e i suoi difetti (almeno quelli che Google dovrà un po’ correggere).

Ecco Imagen 2, la DALL-E di Google

Riporta TechCrunch, a seguito del ritiro del suo precedente generatore di immagini AI, Google vuole comunque fare la differenza nel settore AI. Per questo presenta un Imagen 2 nuovo e ancora più potenziato.

Appartenente a una famiglia di modelli LMM lanciata a dicembre, dopo essere stata anticipata alla conferenza I/O di Google nel maggio 2023, già all’inizio Imagen 2 può creare e modificare immagini a partire da un prompt di testo, come DALL-E e Midjourney di OpenAI.

Nell’ambito business, Imagen 2 può rendere testi, emblemi e loghi in più lingue, sovrapponendo opzionalmente questi elementi a immagini esistenti: ad esempio, su biglietti da visita, abbigliamento e prodotti.

Dopo essere stata lanciata in anteprima, Imagen 2 è ora disponibile generalmente in Vertex AI insieme a due nuove funzionalità: inpainting e outpainting. Per inciso, queste sono funzionalità già offerte anche da altri generatori di immagini popolari come DALL-E, ma nel caso di Imagen 2 esse possono essere utilizzate per:

  • rimuovere parti indesiderate di un’immagine;
  • aggiungere nuovi componenti;
  • espandere i bordi di un’immagine per creare un campo visivo più ampio.

La novità di Imagen 2: testo-immagine in tempo reale

Ma la vera innovazione dell’aggiornamento di Imagen 2 è ciò che Google definisce “testo per immagini in tempo reale“. Infatti l’AI può ora creare brevi video di quattro secondi da prompt di testo. E questo seguendo il modello di strumenti di generazione di clip basati su intelligenza artificiale come Runway, Pika e Irreverent Labs.

Per ora sono a bassa risoluzione (360 per 640 pixel) ma Google afferma che le immagini in tempo reale possono catturare “una serie di angolazioni e movimenti della fotocamera“. Ottimo, ma va detto comunque che la concorrenza al momento offre qualche soluzione in più:

  • Runway può generare clip di 18 secondi a risoluzioni molto più alte;
  • Stable Video Diffusion offre una maggiore personalizzazione (in termini di frame rate);
  • Sora di OpenAI si sta specializzando nel fotorealismo.

Per quanto riguarda l’annosa questione del deepfake, Google afferma che Imagen 2 utilizzerà SynthID, sviluppato da Google DeepMind per applicare watermark crittografici invisibili alle immagini in tempo reale.

Mentre per la questione relativa al copyright, da tempo Google protegge i clienti di Vertex Ai con un’apposita “polizza assicurativa“. O meglio, una specie di indennizzo che protegge i clienti di Vertex AI dalle rivendicazioni di copyright relative all’uso dei dati di addestramento e degli output dei suoi modelli di AI generativa.

Nel nostro caso, le immagini in tempo reale sono tecnicamente in anteprima, mentre la polizza copre solo i prodotti di AI generativa in disponibilità generale. Pertanto, l’utente potrebbe finire nei guai in caso di “rigurgitazione” (regurgitation), ovvero quando un modello generativo produce una copia speculare di (ad esempio) un’immagine su cui è stato addestrato.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.