CM3leon, la nuova AI generativa di immagini di Meta

Meta presenta CM3Leon la sua AI generativa in grado di realizzare immagini partendo dal testo e viceversa

Redazione
CM3leon

Meta continua a presentare tutte le sue novità nel campo dell’AI generativa e l’ultima, svelata proprio in questi giorni, si chiama CM3Leon ed è un modello di intelligenza artificiale specializzato nella generazione di testo e immagini.

CM3Leon, l’AI delle immagini di Meta

CM3Leon è un modello di AI generativa che è in grado di creare immagini partendo da un prompt testuale ma che può operare anche al contrario ovvero raccontando con del testo un’immagine.
Proprio quest’ultima funzione lo rende uno dei primi sistemi di AI generativa in grado di generare anche le didascalie delle immagini.

L’altra particolarità di CM3leon è che, a differenza delle altre tecnologie che si basano sull’uso di modelli di diffusione, in questo caso Meta ha adottato un modello autoregressivo basato su token.

“I modelli di diffusione hanno recentemente dominato le attività di generazione di immagini a causa delle loro prestazioni e dei costi computazionali relativamente modesti. Al contrario, i modelli autoregressivi basati su token sono noti per produrre risultati con ottime prestazioni, ma in particolare possono offrire una coerenza dell’immagine globale ancora migliore”, ha spiegato Meta con un post sul suo blog ufficiale.

Per saperne di più: Intelligenza Artificiale, cos’è e come funziona. Tutto sulla AI

CM3leon è stato pre-addestrato proprio come le altre tecnologie già presenti sul mercato con una differenza. Se le altre AI hanno utilizzato immagini disponibili online, Meta ha scelto di utilizzare solo quelle disponibili con licenza Shutterstock evitando così preoccupazioni legate alla proprietà delle immagini. Successivamente i ricercatori hanno sottoposto CM3leon a una fase di messa a punto supervisionata utile per capire e rispondere ai prompt testuali complessi.

“Con l’obiettivo di creare modelli generativi di alta qualità, riteniamo che le ottime prestazioni di CM3leon in una varietà di attività siano un passo avanti verso la generazione e la comprensione di immagini di maggiore fedeltà. Modelli come CM3leon potrebbero infine aiutare a stimolare la creatività e migliorare le applicazioni nel metaverso. Non vediamo l’ora di esplorare i confini dei modelli linguistici multimodali e di rilasciare altri modelli in futuro”, ha concluso Meta.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.