Apple al lavoro su un modello AI che comprende e genera immagini in modo innovativo

Il nuovo sistema multimodale di Apple punta a superare i limiti dei modelli attuali integrando comprensione visiva e generazione senza compromessi

Redazione
apple confetti

Oggi i sistemi disponibili devono scegliere tra una buona comprensione visiva e una qualità elevata nella generazione di immagini, il che costringe sviluppatori e ricercatori a compromessi spesso inevitabili. Apple però punta a cambiare le regole del gioco, e lo fa con un modello AI multimodale, Manzano. Presentato in uno studio su ArXiv, è progettato per risolvere uno dei nodi più complessi dell’intelligenza artificiale: riuscire a comprendere immagini e generarne di nuove con coerenza e precisione.

Il nodo della tokenizzazione visiva e i limiti dei modelli attuali

Il cuore del problema, spiegano i ricercatori, risiede nella tokenizzazione visiva: il processo che trasforma le immagini in unità comprensibili al modello. I sistemi autoregressivi, che generano le immagini passo dopo passo, richiedono token discreti, mentre la comprensione visiva beneficia di rappresentazioni continue più ricche di significato. Per aggirare il conflitto, molte architetture adottano un doppio tokenizer, separando un encoder semantico continuo per l’analisi e un tokenizer discreto, come VQ-VAE, per la generazione.

Ma questa soluzione porta a un altro ostacolo: il modello deve gestire due linguaggi visivi profondamente diversi, uno astratto e uno legato alla struttura spaziale. Ne nasce un conflitto di compiti che rallenta l’efficienza e riduce la qualità complessiva. Alcune architetture avanzate, come i Mixture-of-Transformers, provano a separare le funzioni, ma richiedono ingenti risorse computazionali e non si integrano facilmente con sistemi Mixture-of-Experts. Altri approcci collegano un LLM multimodale a un decoder di diffusione, mantenendo la comprensione e la generazione separate, ma rinunciando così a una vera integrazione tra i due processi.

Manzano: integrazione reale tra comprensione e generazione

Manzano affronta direttamente queste criticità attraverso una separazione funzionale intelligente: il modello linguistico autoregressivo definisce il contenuto dell’immagine a livello semantico, mentre un decoder di diffusione si occupa della resa finale dei pixel. Come riporta 9to5mac, l’architettura si regge su tre componenti principali:

  • un tokenizer ibrido, capace di produrre sia rappresentazioni continue sia token discreti;
  • un decoder LLM, che riceve testo ed embedding visivi e predice token testuali o visivi da un vocabolario condiviso;
  • un decoder di immagini, che ricostruisce i pixel dai token previsti.

Il risultato è un modello capace di gestire prompt complessi o paradossali, come “l’uccello vola sotto l’elefante”, con performance paragonabili ai migliori sistemi multimodali oggi disponibili. I test effettuati su versioni da 300 milioni fino a 30 miliardi di parametri mostrano un incremento costante delle prestazioni con la scala, con Manzano 3B e 30B competitivi o superiori ai modelli unificati più avanzati sia nella comprensione sia nella generazione.

Oltre alla generazione pura, Manzano eccelle in editing e trasformazioni, dall’instruction-guided editing allo style transfer, dall’inpainting e outpainting fino alla stima della profondità tridimensionale della scena. Queste capacità ne confermano la flessibilità operativa, molto superiore rispetto a sistemi progettati solo per il text-to-image.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.