Oggi i robot possono fare bene solo alcuni compiti, ma in futuro dovranno fare molto di più. E non si parla di semplici faccende domestiche ma addirittura di complessi incarichi lavorativi, che dovranno eseguire alla perfezione. Sarebbe già un successo se si riuscisse a combinare al meglio le proprie istruzioni con le loro osservazioni visive, almeno per determinare i passaggi da seguire. Ma si tratta di una sfida complessa per i robot AI. Meno per il MIT, che sta proprio lavorando su un modello basato sugli LLM per potenziare i robot su questo fronte.
Il modello LLM per rendere i robot più competenti
I ricercatori del MIT e del MIT-IBM Watson AI Lab hanno recentemente ideato un metodo di navigazione che converte le rappresentazioni visive in elementi linguistici e che vengono successivamente elaborati da un ampio modello linguistico (appunto LLM, Large Language Model) per gestire tutti gli step della navigazione.
Invece di codificare le caratteristiche visive delle immagini ambientali del robot come rappresentazioni visive (metodo che richiede ancora oggi notevoli risorse computazionali), l’approccio del MIT punta sulla creazione di didascalie testuali che descrivono il punto di vista del robot.
Proprio l’LLM utilizza queste didascalie per prevedere le azioni che il robot dovrà intraprendere affinché possa eseguire le istruzioni basate sul linguaggio dell’utente.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Vantaggi e svantaggi del modello LLM
Complessivamente il modello del MIT si dimostra efficace in situazioni dove mancano sufficienti dati visivi per l’addestramento. E non solo. Dato che il testo richiede meno risorse computazionali per essere sintetizzato rispetto ai dati derivati delle immagini, il metodo del MIT può essere utilizzato per generare rapidamente dati sintetici per l’addestramento.
Inoltre il metodo può colmare il divario tra ambienti simulati e reali: un problema comune nei sistemi basati sulla visione. E grazie all’utilizzo del linguaggio naturale le rappresentazioni utilizzate dal modello sono molto più comprensibili per l’utente.
Davanti a questi risultati, i ricercatori sono molto ottimisti sull’applicabilità del loro metodo: non solo richiede un solo tipo di input per lo svolgimento dei compiti, ma si può anche utilizzare lo stesso modello senza apportare modifiche, finché i dati possono essere codificati come linguaggio.
Tuttavia, le sfide non mancano. Intanto il metodo perde (come è naturale che sia) alcune informazioni che altrimenti sarebbero trattenute dai modelli basati sulla visione, come le informazioni sulla profondità.
Inoltre ancora adesso non è ben chiara né la combinazione di linguaggio e visione né la consapevolezza spaziale. Per questo i ricercatori vogliono esplorare la combinazione di ulteriori rappresentazioni linguistiche e visive per migliorare ulteriormente le prestazioni di navigazione. E altresì studiare la capacità degli LLM di comprendere lo spazio e il loro ruolo nella navigazione basata sul linguaggio.