Microsoft svela Maia 200, il nuovo chip dedicato all’AI

Microsoft alza il sipario su Maia 200, un chip-acceleratore di inferenza AI destinato a trasformare profondamente l’economia e le prestazioni della generazione di token nei grandi modelli linguistici. Con una combinazione di architettura all’avanguardia, calcolo ultra‑preciso e integrazione cloud-native, Maia 200 promette di potenziare le applicazioni più complesse, dai sistemi interni di superintelligenza fino a Microsoft 365 Copilot e i modelli GPT-5.2, inaugurando una nuova era per l’AI in produzione.

Cloud-native e deployment accelerato

Maia 200 è concepito per un’integrazione immediata con Azure, grazie a un SDK completo con strumenti PyTorch, compilatore Triton, librerie kernel ottimizzate e accesso al linguaggio di programmazione a basso livello, che permette agli sviluppatori controllo preciso sui modelli e portabilità tra hardware eterogeneo.

Il progetto ha seguito una validazione pre-silicio avanzata, modellando fin dall’inizio i pattern di calcolo e comunicazione dei LLM, ottimizzando silicio, networking e software come sistema unico. Questo approccio ha consentito di far girare i modelli AI su Maia 200 già pochi giorni dopo l’arrivo dei primi chip, dimezzando i tempi di deployment rispetto a infrastrutture simili. La gestione end-to-end, dal chip al software fino al datacenter, garantisce massima affidabilità, utilizzo ottimale e miglior rapporto prestazioni/dollaro e prestazioni/watt su scala cloud.

Maia 200 è già operativo nel datacenter US Central vicino a Des Moines, Iowa, con prossime attivazioni previste in US West 3 a Phoenix e ulteriori regioni in sviluppo. L’architettura promette di ridefinire le regole dell’inferenza AI, aprendo la strada a modelli sempre più grandi, veloci e economicamente sostenibili.

Potenza di calcolo e innovazione tecnologica

Frutto del processo produttivo a 3 nanometri di TSMC, Maia 200 monta FP8 e FP4 tensor cores, memoria HBM3e da 216 GB con banda di 7 TB/s e 272 MB di SRAM on-chip, accompagnati da motori di movimento dati progettati per mantenere i modelli più imponenti costantemente alimentati.

Ogni chip racchiude oltre 140 miliardi di transistor, garantendo oltre 10 petaFLOPS in FP4 e 5 petaFLOPS in FP8, il tutto entro un consumo di 750W. Questi numeri lo collocano tra i silici più performanti mai realizzati da un hyperscaler, superando tre volte le prestazioni FP4 dell’Amazon Trainium di terza generazione e offrendo FP8 superiore al Google TPU di settima generazione.

Oltre alla pura potenza di calcolo, Maia 200 affronta il vero limite dell’inferenza AI: la velocità di alimentazione dei dati. Il sistema di memoria ridisegnato, con DMA specializzati, SRAM integrata e rete NoC ad alta larghezza di banda, consente di incrementare drasticamente il throughput dei token, garantendo inferenza rapida e costante anche per modelli estremamente complessi.

A livello di sistema, Maia 200 introduce un design a due livelli per reti scale-up basato su Ethernet standard, con layer di trasporto personalizzati e NIC integrate, offrendo 2,8 TB/s di banda bidirezionale dedicata e operazioni collettive prevedibili su cluster fino a 6.144 acceleratori. Questa struttura assicura prestazioni scalabili, affidabilità elevata e costi ridotti, anche per le implementazioni più dense.

Ogni rack integra quattro acceleratori collegati tramite link diretti non commutati, massimizzando l’efficienza di comunicazione locale, mentre lo stesso protocollo di trasporto AI gestisce comunicazioni intra- e inter-rack. Questo approccio garantisce scalabilità senza soluzione di continuità, maggiore flessibilità dei carichi di lavoro e minori risorse inutilizzate, pur mantenendo costante l’efficienza e le performance a livello cloud globale.

Cloud-native e deployment accelerato

Potenza di calcolo e innovazione tecnologica

Iscriviti alla newsletter

Articoli correlati