Un nuovo sistema di ragionamento visivo sta cambiando il modo in cui i robot interpretano e reagiscono al mondo. Si tratta di VisualThink-VLA, sviluppato da un team della Zhejiang University in collaborazione con Cornell University, National University of Singapore e Xidian University. La tecnologia consente alle macchine di “pensare con gli occhi”, riducendo la dipendenza dai processi linguistici interni e migliorando allo stesso tempo velocità e precisione. I risultati sono significativi: fino a 22,8 volte più veloce rispetto ai modelli basati su testo, con prestazioni complessivamente superiori nei compiti di ragionamento visivo.
Collaborazione internazionale alla base del progetto
Il progetto VisualThink-VLA nasce da una collaborazione accademica internazionale che ha messo insieme competenze complementari nel campo dell’intelligenza artificiale e della robotica. Zhejiang University ha coordinato il lavoro insieme a ricercatori della Cornell University, della National University of Singapore e della Xidian University.
Questa rete di ricerca ha permesso di integrare approcci differenti al problema del ragionamento nei robot, combinando visione artificiale, apprendimento automatico e sistemi di controllo. La sinergia tra i gruppi ha avuto un ruolo decisivo nel definire un modello capace non solo di migliorare le prestazioni teoriche, ma anche di essere testato con successo in scenari operativi reali.
Come funziona VisualThink-VLA
Il cuore dell’innovazione sta nel superamento del tradizionale schema “testo-centrico” utilizzato nei modelli Vision-Language-Action. In questi sistemi, il robot elabora una sorta di “monologo interno” testuale prima di agire, con tempi medi di circa 8,377 secondi per ogni passaggio.
VisualThink-VLA elimina questo passaggio, sostituendo il linguaggio con token visivi di ragionamento, riducendo il tempo di elaborazione a circa 0,367 secondi per step. Questo approccio consente ai robot di reagire quasi in tempo reale agli stimoli ambientali, rendendo più efficiente la gestione di compiti complessi e dinamici.
Architettura visiva e meccanismo adattivo
Il sistema si basa su una struttura a quattro canali di evidenza visiva: Bounding Box, Edge, Motion e Relation. Questi canali permettono di analizzare diversi aspetti della scena, dalla posizione degli oggetti ai movimenti e alle relazioni spaziali.
Tuttavia, VisualThink-VLA non utilizza sempre tutti i canali contemporaneamente: un meccanismo di routing adattivo seleziona in media solo 2,22 canali per ogni step, ottimizzando così il bilanciamento tra efficienza computazionale e qualità del ragionamento.
Questa selezione dinamica rappresenta uno degli elementi chiave che consente di mantenere alte prestazioni riducendo il carico di calcolo.
Prestazioni e validazione sperimentale
Le prove sperimentali hanno mostrato risultati solidi su otto benchmark diversi, con un tasso medio di successo del 92,63%, superiore all’85,09% ottenuto dai modelli ECoT basati su testo. Il sistema è stato inoltre testato su un braccio robotico PIPER NERO a 7 gradi di libertà, dimostrando efficacia in operazioni di pick-and-place multi-oggetto, manipolazioni sensibili alle relazioni spaziali e compiti sequenziali a due fasi. Il dataset utilizzato per l’addestramento, denominato VisualEvidence-Set, comprende circa 754.700 istruzioni, coprendo un’ampia gamma di scenari di manipolazione robotica.
Implicazioni per la robotica del futuro
VisualThink-VLA rappresenta un passaggio dal paradigma “scrivere e poi agire” a quello di “vedere, pensare e agire”, avvicinando il funzionamento dei robot ai meccanismi percettivi umani. Il sistema è progettato come modulo plug-and-play, integrabile nei modelli VLA esistenti senza necessità di riprogettazione completa.
Questa caratteristica apre la strada a una diffusione più rapida nelle applicazioni industriali e nei sistemi autonomi.
Fonte: Pandaily