L’AI generativa ormai è in grado di fare praticamente qualsiasi cosa, rispondere a una domanda, creare un’immagine, creare un video e creare un audio o suono. Quello che però, per ora, non è ancora stato fatto è creare dei video compresi di audio. E proprio questo è lo scopo di V2A, l’Intelligenza artificiale appena annunciata da DeepMind.
DeepMind lavora all’AI V2A
“Oggi condividiamo i progressi sulla nostra tecnologia video-audio (V2A), che rende possibile la generazione audiovisiva sincronizzata. V2A combina pixel video con istruzioni di testo in linguaggio naturale per generare paesaggi sonori ricchi per l’azione sullo schermo. La nostra tecnologia V2A è abbinabile a modelli di generazione video come Veo per creare riprese con una colonna sonora drammatica, effetti sonori realistici o dialoghi che si adattano ai personaggi e al tono di un video. Può anche generare colonne sonore per una serie di filmati tradizionali, tra cui materiale d’archivio, film muti e altro ancora, aprendo una gamma più ampia di opportunità creative”, ha dichiarato DeepMind nel comunicato stampa di presentazione del muovo modello AI.
Ma come funziona il nuovo V2A? Il sistema parte codificando l’input video in una rappresentazione compressa. Quindi, il modello di diffusione perfeziona iterativamente l’audio dal rumore casuale. Questo processo è guidato dall’input visivo e dalle istruzioni in linguaggio naturale fornite per generare un audio sincronizzato e realistico che si allinei strettamente con l’istruzione. Infine, l’uscita audio viene decodificata, trasformata in una forma d’onda audio e combinata con i dati video.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Il modello, però, è ancora in fase di test in quanto, sebbene sia un’innovazione, ha una serie di limitazioni e imprecisioni che l’azienda sta cercando di risolvere. Prima di tutto, poiché la qualità dell’output audio dipende dalla qualità dell’input video, artefatti o distorsioni nel video, che sono al di fuori della distribuzione di addestramento del modello, possono portare a un notevole calo della qualità audio. Inoltre DeepMind sta lavorando anche un miglioramento della sincronizzazione del movimento labiale in caso di parlato. Queste e altre limitazioni hanno portato l’azienda a sottolineare che “prima di prendere in considerazione l’apertura dell’accesso ad un pubblico più ampio, la nostra tecnologia V2A sarà sottoposta a rigorose valutazioni e test di sicurezza. I risultati iniziali mostrano che questa tecnologia diventerà un approccio promettente per dare vita ai filmati generati”.