Un nuovo passo avanti nell’evoluzione della robotica da parte dei ricercatori del MIT, che hanno recentemente sviluppato un nuovo modello LLM (Large Language Model) per addestrare i robot utilizzando dati eterogenei provenienti da fonti diverse, superando le limitazioni dei metodi tradizionali e aprendo la strada a una nuova generazione di robot adattabili a ogni esigenza.
Il nuovo modello LLM firmato MIT per addestrare robot polifunzionali
Ad oggi, con i tradizionali processi di addestramento, i robot vengono preparati per svolgere compiti specifici con dati raccolti in ambienti controllati. Tuttavia, questa metodologia è dispendiosa sia in termini di tempo sia di risorse. E i robot spesso hanno difficoltà ad adattarsi a nuovi ambienti o compiti. Soprattutto quando non sono addestrati per bene.
Per superare questo limite, il team del MIT ha sviluppato un modello LLM capace di aggregare enormi quantità di dati provenienti da diverse modalità — come sensori visivi, rilevatori di movimento e robot fisici o simulati – in modo da ridurre il bisogno di dati specifici per ogni compito e aumentando così facendo l’efficienza dell’addestramento. La tecnica del MIT trae ispirazione dai modelli linguistici di intelligenza artificiale su larga scala, come GPT-4, che utilizzano una vasta gamma di dati linguistici per rispondere con flessibilità a compiti diversi.
Uno degli ostacoli principali per i ricercatori è stato raccogliere un set di dati sufficientemente grande e variegato per il pretraining del modello. Alla fine sono riusciti a integrare 52 set di dati, comprendenti oltre 200.000 traiettorie di robot, suddivise in categorie come video di dimostrazioni umane e simulazioni. Questo ha richiesto anche l’elaborazione di dati complessi, come i segnali di propriocezione, fondamentali per rendere possibile una gamma di movimenti flessibili.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
HPT, una nuova architettura per unificare i dati
Per unificare dati del genere, i ricercatori hanno creato un’architettura, chiamata Heterogeneous Pretrained Transformers (HPT). Grazie ad HPT, i dati di visione, propriocezione e posizione sono trasformati in “token” uniformi, che il trasformatore del modello elabora nel proprio spazio condiviso.
Così, il sistema è in grado di imparare da una molteplicità di input, migliorando costantemente con l’aumento dei dati. In conclusione, riferisce il MIT, il metodo ha garantito un miglioramento complessivo dell’addestramento robot di oltre il 20% rispetto alle tecniche tradizionali sia in simulazioni sia in esperimenti reali.
Ha detto a Tech Crunch David Held, professore associato della CMU (Carnegie Mellon University) nonché coautore dello studio:
“Il nostro sogno è avere un cervello robotico universale che potresti scaricare e utilizzare per il tuo robot senza alcuna formazione. Anche se siamo appena nelle fasi iniziali, continueremo a spingere forte e speriamo che il ridimensionamento porti a una svolta nelle politiche robotiche, come è avvenuto con i grandi modelli linguistici”.
La ricerca è stata sostenuta in parte dal Toyota Research Institute, lo stesso istituto che ha recentemente avviato un’importante collaborazione con Boston Dynamics.