Meta rilancia la sua corsa nell’intelligenza artificiale con la presentazione ufficiale di Llama 4, una nuova generazione di modelli linguistici avanzati che comprende quattro varianti: Scout e Maverick, già disponibili, Behemoth, ancora in fase di addestramento, e il “misterioso” Reasoning.
Llama 4: tutto sui modelli Scout, Maverick, Behemoth e Reasoning
La nuova famiglia di modelli Llama 4 si presenta come un salto qualitativo rispetto alla generazione precedente, sia sul piano tecnico che su quello dell’approccio ai contenuti, anche per via della loro architettura Mixture of Experts (MoE), un sistema che seleziona dinamicamente i “moduli” migliori da attivare per ogni richiesta, migliorando efficienza e velocità.
Partendo dal modello Scout, si tratta di quello più compatto: ha 109 miliardi di parametri totali, ma solo 17 miliardi sono attivi in ciascuna inferenza, distribuiti su 16 esperti. Questo gli consente di girare su una singola GPU NVIDIA H100, mantenendo al contempo prestazioni elevate in compiti complessi come il riassunto di documenti multipli e il ragionamento su grandi moli di dati. Secondo Meta, Scout supera rivali come Google Gemma 3 e Mistral 3.1 in numerosi benchmark, pur essendo più leggero.
Maverick invece punta in alto: con 400 miliardi di parametri totali e 17 miliardi attivi su una rete di 128 esperti, è pensato per scenari multimodali e assistenza virtuale avanzata. Necessita di infrastrutture più potenti, come sistemi DGX H100, ma promette prestazioni paragonabili ai top di gamma come GPT-4o e Gemini 2.0 Flash. Il modello eccelle nella comprensione di testi e immagini, con risultati competitivi anche rispetto al recente DeepSeek v3.
Dietro Scout e Maverick si nasconde un progetto ancora più ambizioso: Llama 4 Behemoth. Questo modello rappresenta il cuore della nuova generazione, con 2 trilioni di parametri complessivi e 288 miliardi attivi su 16 esperti. Meta lo definisce “tra i modelli più intelligenti al mondo”, capace di superare GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro in benchmark STEM, anche se la sua fase di addestramento non è ancora conclusa.
Infine, il CEO di Meta, Mark Zuckerberg, ha accennato sulla propria pagina su Instagram dell’imminente presentazione di un quarto modello, denominato Llama 4 Reasoning, previsto per il prossimo mese.
Più apertura da Meta, e più potenza da NVIDIA
Un’altra novità sostanziale di Llama 4 riguarda il suo comportamento rispetto ai temi controversi. Meta ha dichiarato di aver ridotto significativamente la tendenza del modello a rifiutare domande su argomenti politici e sociali dibattuti, mantenendo però un equilibrio tra apertura e responsabilità.
Il nuovo approccio mira a rispondere a una gamma più ampia di domande, accogliendo diversi punti di vista e riducendo i casi in cui il modello “si tira indietro” per precauzione. Una risposta indiretta alle critiche ricevute dalle precedenti versioni per un’eccessiva prudenza, spesso percepita come censura.
A margine dell’annuncio, anche NVIDIA ha voluto sottolineare il proprio ruolo nell’ottimizzazione di Llama 4. In un post ufficiale, l’azienda ha spiegato di aver adattato i modelli Scout e Maverick alla libreria open source TensorRT-LLM, progettata per accelerare le prestazioni su GPU.
I numeri riportati parlano chiaro: sulla nuova GPU Blackwell B200, Llama 4 Scout può generare oltre 40.000 token al secondo, mentre Maverick supera i 30.000. Il tutto con una velocità 3,4 volte superiore e un costo per token 2,6 volte inferiore rispetto al già performante chip H200. Una sinergia che dimostra come l’hardware giochi un ruolo sempre più centrale nell’evoluzione degli LLM.
I primi due modelli, Scout e Maverick, sono disponibili su Llama.com e presso i partner di Meta, tra cui la piattaforma di sviluppo Hugging Face. Meta afferma che Meta AI, il suo assistente AI per applicazioni come WhatsApp, Messenger e Instagram, è stato aggiornato per impiegare Llama 4 in 40 Paesi. Le funzioni multimodali sono per ora limitate agli Stati Uniti in lingua inglese.