Quando parliamo con le intelligenze artificiali esse ci comprendono solo perché il loro linguaggio è preimpostato, non perché riescono a intenderlo autonomamente. Fino ad oggi non sembrava che algoritmi e AI fossero capaci di comprenderlo immediatamente, ma ci sbagliavamo. Arriva dal MIT l’algoritmo DenseAV, un progetto rivoluzionario per permettere infatti agli algoritmi di apprendere il linguaggio umano “da zero”, come fanno gli esseri umani quando sono piccoli.
Il progetto DenseAV per l’algoritmo del futuro
Progetto nato da un’idea di Mark Hamilton, dottorando in ingegneria elettrica e informatica presso il MIT e affiliato del Computer Science and Artificial Intelligence Laboratory (CSAIL), DenseAV rientra all’interno di un percorso davvero ambizioso, ovvero quello di trovare una tecnologia in grado di comprendere il linguaggio animale.
Un’utopia scientifica, eppure un primo passo è stato appena fatto, visto che con DenseAV si è riusciti a sviluppare un modello capace di apprendere il linguaggio umano, e di comprenderlo come si fa tra noi esseri umani. Praticamente il team è riuscito a creare da zero il linguaggio all’interno della “mente” dell’algoritmo, come succede in quella degli infanti. E questo grazie ai video sul web.
Alla base dell’addestramento ci sono infatti migliaia di ore di video che vengono pubblicati ogni giorno su Internet, permettendo al modello di collegare la parola all’immagine. Una volta addestrato DenseAV, riporta il MIT, il team guidato da Hamilton ha osservato quali pixel il modello cercava quando sentiva un suono. In un primo esperimento, quando qualcuno in un video ha detto la parola “cane”, l’algoritmo ha iniziato immediatamente a cercare cani nel flusso video.
Questo ha dimostrato che DenseAV non solo ha appreso il significato delle parole e la posizione dei suoni, ma ha anche imparato a distinguere il significante (ovvero l’immagine astratta che rinvia il concetto) dal significato stesso (cioè il riferimento contestuale). Il tutto senza intervento umano e senza alcuna conoscenza pregressa della lingua scritta.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
L’esperimento “contrastivo”
Ovviamente sarebbe facile per DenseAV unire parola e immagine se la corrispondenza è sempre 1:1. Infatti la sfida principale del team è far sì che il modello impari il linguaggio senza alcun input testuale, ovvero in piena astrazione.
Per raggiungere questo obiettivo, il team ha “costretto” DenseAV a utilizzare due componenti principali per elaborare separatamente i dati audio e visivi. Questa separazione impedisce all’algoritmo di “barare” guardando l’audio con la parte visiva e viceversa, costringendolo a riconoscere oggetti e creare caratteristiche dettagliate e significative per entrambi i segnali.
Così facendo, DenseAV apprende confrontando coppie di segnali audio e visivi per trovare quali segnali corrispondono e quali no. Si chiama apprendimento contrastivo, e permette a DenseAV di capire autonomamente i pattern predittivi del linguaggio.
Sempre utilizzando l’addestramento video su AudioSet, che include 2 milioni di video di YouTube, il team ha potuto testare l‘efficacia del modello nel collegare suoni e immagini. In questi test, DenseAV ha superato altri modelli di punta in compiti come identificare oggetti dai loro nomi e suoni, dimostrando la sua efficacia.
Guardando al futuro, il team mira a creare sistemi che possano apprendere da enormi quantità di dati video o solo audio, cruciali per nuovi domini dove c’è abbondanza di uno dei due modi ma non di entrambi. Il team prevede anche di scalare questo approccio utilizzando architetture più grandi e integrando conoscenze dai modelli linguistici per migliorare le prestazioni.