Quasi metà dell’attenzione durante una conversazione faccia a faccia è rivolta al movimento delle labbra. Un dettaglio che per gli esseri umani è naturale, ma che per i robot è sempre stato un ostacolo quasi insormontabile. Ora, però, qualcosa sta cambiando: un team di Columbia Engineering ha annunciato la creazione di un robot capace, per la prima volta, di imparare i movimenti facciali delle labbra per parlare e persino cantare, avvicinandosi a superare quella soglia psicologica nota come Uncanny Valley.
Un robot che impara a muovere le labbra osservando se stesso e gli umani
Lo studio, pubblicato su Science Robotics, mostra come il robot sia riuscito ad articolare parole in diverse lingue e a cantare un brano tratto dal suo album di debutto generato dall’intelligenza artificiale, intitolato “hello world_”. La vera innovazione non riguarda solo il risultato finale, ma soprattutto il metodo utilizzato.
Il robot ha infatti acquisito questa capacità attraverso apprendimento osservativo, senza essere programmato con regole rigide. In una prima fase, è stato posizionato davanti a uno specchio per imparare a controllare i 26 motori facciali che muovono la sua pelle artificiale. Come un bambino che scopre il proprio volto, ha eseguito migliaia di espressioni casuali, imparando progressivamente a collegare l’attivazione dei motori all’aspetto del viso. Questo approccio è stato definito un modello di tipo vision-to-action.
In seguito, il robot è stato esposto a ore di video di persone che parlano e cantano, offrendo all’IA l’opportunità di osservare come i movimenti delle labbra umane si sincronizzano con i suoni. Combinando le due fasi, il sistema è diventato capace di tradurre l’audio direttamente in movimenti delle labbra, senza conoscere il significato delle parole pronunciate. «Più interagisce con gli esseri umani, più diventerà bravo», ha spiegato Hod Lipson, direttore del Creative Machines Lab di Columbia.
Perché il movimento delle labbra resta una delle sfide più complesse
Rendere credibile il movimento delle labbra di un robot è particolarmente difficile per due motivi. Da un lato, è necessario disporre di hardware altamente specializzato, con una pelle flessibile azionata da numerosi micromotori in grado di muoversi rapidamente e in modo silenzioso. Dall’altro, la dinamica delle labbra dipende da sequenze complesse di suoni e fonemi, difficili da tradurre in istruzioni meccaniche.
Il volto umano è animato da decine di muscoli sotto una pelle morbida, che si muovono in modo naturale in sincronia con le corde vocali. I volti robotici, al contrario, sono spesso rigidi e basati su schemi predefiniti, con il risultato di movimenti innaturali e disturbanti. Proprio questa discrepanza alimenta l’effetto “uncanny”.
Nel nuovo studio, i ricercatori hanno superato questi limiti sviluppando un volto robotico riccamente attuato e lasciando che fosse il robot stesso a imparare come utilizzarlo. I test hanno coinvolto suoni, lingue e contesti diversi, oltre ad alcune canzoni. I risultati non sono ancora perfetti: il sistema incontra difficoltà con suoni duri come la “B” o con quelli che richiedono un marcato arrotondamento delle labbra, come la “W”. “Queste capacità miglioreranno probabilmente con il tempo e con la pratica”, ha osservato Lipson.
Espressività facciale, interazione e rischi futuri
Secondo i ricercatori, la capacità di esprimere emozioni attraverso il volto rappresenta l’anello mancante della robotica umanoide. “Gran parte della robotica attuale si concentra su gambe e mani, per camminare o afferrare oggetti, ma l’espressività facciale è altrettanto importante quando si tratta di interagire con le persone”, ha sottolineato Lipson.
L’integrazione del movimento delle labbra con sistemi di AI conversazionale, come ChatGPT o Gemini, potrebbe rafforzare in modo significativo il legame tra esseri umani e robot. “Quando il lip sync si combina con un’AI conversazionale, si aggiunge una profondità completamente nuova alla connessione che il robot riesce a creare“, ha spiegato Yuhang Hu, primo autore dello studio. Più il robot osserva conversazioni reali, più diventa capace di imitare gesti facciali sfumati, quelli a cui gli esseri umani reagiscono a livello emotivo. “Con finestre di contesto più lunghe, questi gesti diventano sempre più sensibili alla situazione”, ha aggiunto.
Lipson e Hu prevedono che volti caldi e realistici diventeranno centrali man mano che i robot umanoidi troveranno applicazioni in intrattenimento, istruzione, sanità e assistenza agli anziani. Alcune stime economiche indicano che oltre un miliardo di robot umanoidi potrebbe essere prodotto nel prossimo decennio. “Non esiste un futuro in cui tutti questi robot non abbiano un volto”, ha affermato Lipson, avvertendo che senza movimenti credibili di occhi e labbra resteranno inevitabilmente inquietanti.
Allo stesso tempo, i ricercatori sono consapevoli dei rischi e delle controversie legate a robot sempre più capaci di creare connessioni emotive. “Sarà una tecnologia molto potente. Dobbiamo procedere con cautela, per massimizzarne i benefici riducendo al minimo i rischi”, ha concluso Lipson.