DeepMind, la società del gruppo Alphabet, ha presentato Gemini Robotics 1.5, un modello di intelligenza artificiale progettato per rendere i robot autonomi e capaci di svolgere compiti complessi senza intervento umano. L’annuncio segna un passo significativo verso la robotica avanzata, in cui automi intelligenti non solo eseguono azioni, ma apprendono e trasferiscono competenze tra loro.
Gemini Robotics 1.5: la nuova era dei robot autonomi
L’intelligenza artificiale applicata alla robotica compie un nuovo passo decisivo con l’arrivo di due modelli progettati per rendere i robot più autonomi, trasparenti e capaci di affrontare compiti complessi nel mondo reale. La nuova generazione Gemini Robotics punta a far interagire i sistemi fisici con ragionamento avanzato, pianificazione e capacità multimodali.
Il cuore dell’aggiornamento è rappresentato non solo da Gemini Robotics 1.5 ma anche da Gemini Robotics-ER 1.5: due modelli che operano in sinergia per consentire ai robot di percepire, pianificare e agire in modo strutturato.
Gemini Robotics 1.5 è un modello vision-language-action (VLA) capace di trasformare le informazioni visive e le istruzioni in comandi motori. Non esegue però in modo cieco: “pensa” prima di agire, esplicitando i passaggi logici e perfezionando l’esecuzione dei compiti in maniera trasparente. Inoltre, apprende da diversi tipi di robot, accelerando il trasferimento delle competenze tra piattaforme diverse.
Gemini Robotics-ER 1.5, invece, è il modello vision-language dedicato al ragionamento fisico e alla pianificazione in più fasi. Funziona come una sorta di “cervello strategico”: comprende l’ambiente, elabora piani d’azione, usa strumenti digitali come Google Search e produce istruzioni in linguaggio naturale. La combinazione dei due modelli consente ai robot di affrontare attività a più step, effettuare valutazioni sul progresso, adattarsi a contesti eterogenei e mostrare capacità di generalizzazione superiori.
Entrambi i sistemi sono stati adattati a partire dalla famiglia di modelli Gemini, con dataset specifici per il ragionamento incarnato e l’azione. Gemini Robotics-ER 1.5 è già disponibile per gli sviluppatori tramite Gemini API in Google AI Studio, mentre Gemini Robotics 1.5 è accessibile ai partner selezionati.
Comprensione spaziale, apprendimento e sicurezza
Secondo i benchmark accademici e interni, Gemini Robotics-ER 1.5 ha raggiunto prestazioni di livello “state-of-the-art” in 15 test legati al ragionamento incarnato, come ERQA, Point-Bench e RefSpatial. Le capacità includono rilevamento degli oggetti, segmentazione, stima dello stato, previsione delle traiettorie, individuazione del progresso e valutazione del successo del compito.
La novità più rilevante è la capacità di Gemini Robotics 1.5 di pensare in più livelli prima di agire. Nei compiti complessi, come “separare il bucato per colore”, il modello analizza la semantica del compito, la sequenza delle azioni e il movimento necessario per completare ogni fase. Questo approccio permette di spezzare attività lunghe in segmenti gestibili e aumentare la robustezza rispetto ai cambiamenti ambientali.
Un ulteriore punto chiave è l’apprendimento attraverso diverse “morfologie”. Il modello può trasferire movimenti e strategie da un robot all’altro senza necessità di adattamenti specifici. Compiti appresi, ad esempio, dal robot ALOHA 2, funzionano anche su robot umanoidi come Apollo o su sistemi bi-braccio come Franka.
Google sottolinea anche l’impegno verso uno sviluppo responsabile. Viene adottato un approccio alla sicurezza che combina ragionamento semantico, dialogo rispettoso e sistemi di protezione a basso livello per evitare collisioni. Viene inoltre aggiornato il benchmark ASIMOV, dedicato alla valutazione della sicurezza semantica con nuovi dataset, annotazioni migliorate e video. I test mostrano che Gemini Robotics-ER 1.5 offre risultati di riferimento anche in questo ambito, grazie alle sue capacità di ragionamento.