Dopo oltre 400 milioni di download della prima generazione e più di 100.000 varianti sviluppate dalla comunità, Google DeepMind ha lanciato Gemma 4, la sua nuova generazione di modelli open-source pensata per spingere i limiti dell’intelligenza artificiale. Un vero e proprio salto qualitativo, grazie a funzioni come ragionamento multi-step, capacità multimodali e supporto a flussi agentici, che rendono questi modelli strumenti potenti per sviluppatori e ricercatori. Il tutto reso disponibile sotto licenza Apache 2.0, garantendo libertà completa di utilizzo.
Prestazioni ai vertici e dimensioni diversificate
La famiglia Gemma 4 comprende quattro versioni: Effective 2B (E2B), Effective 4B (E4B), 26B Mixture of Experts (MoE) e 31B Dense. Questi modelli non si limitano al semplice chat: gestiscono logica complessa, pianificazione multi-step e flussi agentici autonomi.
Le varianti più grandi, 26B e 31B, dominano le classifiche di prestazioni open-source: il 31B è attualmente il terzo modello open al mondo secondo Arena AI, mentre il 26B si posiziona sesto, superando modelli fino a 20 volte più grandi. Per gli sviluppatori, ciò significa ottenere capacità avanzate con hardware più leggero, un vantaggio decisivo per test e prototipazione.
Gemma 4 su dispositivi mobili e IoT
I modelli E2B ed E4B sono pensati per l’uso su dispositivi edge e mobile, con attenzione a latency minima, efficienza di calcolo e supporto multimodale. Grazie a collaborazioni con Google Pixel, Qualcomm e MediaTek, questi modelli funzionano offline su smartphone Android, Raspberry Pi e NVIDIA Jetson Orin Nano, rendendo possibile la creazione di agenti autonomi, riconoscimento vocale e flussi intelligenti direttamente sui dispositivi.
Questa efficienza permette agli sviluppatori di testare agenti e flussi complessi con minime risorse, aprendo la strada a nuove applicazioni su larga scala.
Funzionalità avanzate e supporto globale
Gemma 4 integra strumenti pensati per la ricerca avanzata e lo sviluppo di prodotti innovativi:
- Ragionamento avanzato: migliora le performance in matematica e compiti complessi, seguendo istruzioni multi-step.
- Flussi agentici autonomi: supporto nativo a chiamate di funzioni, output JSON e istruzioni di sistema.
- Generazione di codice: assiste gli sviluppatori offline, trasformando il computer in un vero AI code assistant.
- Visione e audio: elaborazione di immagini e video, OCR, grafici e input audio per riconoscimento vocale.
- Contesto lungo: fino a 256K token, utile per documenti estesi e repository complessi.
- Supporto multilingue: addestramento nativo su oltre 140 lingue per applicazioni globali.
Modelli ottimizzati per ogni hardware
Le versioni 26B e 31B garantiscono intelligenza di frontiera offline, con pesi bfloat16 ottimizzati per GPU NVIDIA H100 da 80GB. Le versioni quantizzate permettono l’uso su GPU consumer, ideali per IDE, assistenti al coding e agenti autonomi. La 26B MoE attiva solo 3,8 miliardi di parametri durante l’inferenza, garantendo velocità elevate, mentre la 31B Dense massimizza qualità e possibilità di fine-tuning.
Le versioni E2B ed E4B, con footprint rispettivamente di 2 e 4 miliardi di parametri, offrono prestazioni quasi istantanee su dispositivi edge, ottimizzando RAM e batteria.
Licenza open-source e libertà di sviluppo
Gemma 4 viene rilasciata con licenza Apache 2.0, permettendo agli sviluppatori pieno controllo su dati, infrastruttura e modelli. Questa scelta favorisce ricerca collaborativa, innovazione e sovranità digitale, consentendo implementazioni sia in cloud che on-premises senza vincoli.