MAI-Image-1, la risposta di Microsoft a Midjourney e OpenAI

Microsoft ha presentato MAI-Image-1, il suo primo generatore di immagini basato su intelligenza artificiale sviluppato interamente in casa, segnando un passo importante nella strategia dell’azienda di Redmond. Il nuovo sistema arriva dopo MAI-Voice-1, dedicato alla sintesi vocale, e il chatbot MAI-1-preview, con l’obiettivo di costruire un ecosistema integrato di strumenti per la creazione e la comprensione dei contenuti digitali.

Le caratteristiche di MAI-Image-1 e i test nella LMArena

Secondo Microsoft, il modello è stato progettato tenendo in considerazione i suggerimenti di artisti digitali e creativi professionisti, così da evitare gli esiti troppo generici o ripetitivi che spesso caratterizzano i generatori concorrenti.

L’attenzione si concentra sulla qualità fotorealistica delle immagini, in particolare per i soggetti naturali come paesaggi o fenomeni atmosferici. Nonché sulla velocità di esecuzione, giudicata più elevata rispetto a modelli di dimensioni maggiori e più lenti.

Gli ingegneri di Microsoft hanno sottoposto MAI-Image-1 ai test della LMArena, la piattaforma online in cui sono confrontati i risultati dei principali sistemi di intelligenza artificiale. Qui il modello Microsoft si è classificato tra i primi dieci al mondo per qualità visiva e fedeltà ai prompt testuali. Il che segna il debutto della società nel ristretto gruppo di player capaci di sfidare Midjourney, Stability AI e OpenAI.

Strategia autonoma e prospettive di integrazione

La scelta di sviluppare un modello proprietario conferma la strategia di Microsoft di ridurre la dipendenza dai partner esterni. Pur collaborando da anni con OpenAI, la compagnia ha avviato l’integrazione di modelli di Anthropic nei propri servizi Microsoft 365. Inoltre, sta investendo risorse significative per consolidare un portafoglio autonomo.

Dal punto di vista tecnico, l’architettura di MAI-Image-1 non è ancora pubblica. Tuttavia, il colosso statunitense ha assicurato che il modello ha subito a un processo di valutazione etica e di sicurezza, volto a limitare contenuti sensibili e manipolazioni visive. Le cosiddette guardrail digitali continueranno a essere rafforzate con l’uso, per prevenire impieghi impropri o disinformativi.

Al momento non è annunciata una data per l’eventuale integrazione di MAI-Image-1 in prodotti come Copilot o Microsoft 365, ma appare probabile un’introduzione graduale, simile a quella adottata per i modelli linguistici e vocali già lanciati dall’azienda.

Le caratteristiche di MAI-Image-1 e i test nella LMArena

Strategia autonoma e prospettive di integrazione

Iscriviti alla newsletter

Articoli correlati