Dopo un anno particolarmente intenso per il settore dell’AI generativa, l’University College di Londra ha cercato di capire quanto l’orecchio umano si è abituato a sentire i suoni generati digitalmente e, soprattutto, se è in grado di distinguere quelli umani e quelli dell’intelligenza artificiale.
Deepfake vs. Uomo: chi vince?
Per deepfake si intendono i media sintetici che riproducono in maniera quasi identica il parlato di una persona. Questa tecnologia rientra nel mercato dell’intelligenza artificiale generativa e, se i primi algoritmi vocali erano piuttosto imperfetti, i più recenti sono sempre più reali. Per questo motivo diventa importante anche imparare a distinguere la voce umana e la voce della macchina.
È così che i ricercatori dell’Università di Londra hanno utilizzato un algoritmo di sintesi vocale (TTS) addestrato su due set di dati pubblicamente disponibili, uno in inglese e uno in mandarino, per generare 50 campioni vocali deepfake in ciascuna lingua. I campioni sono poi stati sottoposti a oltre 500 persone per capire se il discorso era reale o falso. Dai risultati è emerso che solo il 73% ha rilevato il parlato generato dall’AI con la stessa precisione sia in inglese che in mandarino. Dato che non è cambiato, se non di poco, dopo che hanno ricevuto una breve formazione.
“I nostri risultati confermano che gli esseri umani non sono in grado di rilevare in modo affidabile il discorso deepfake, indipendentemente dal fatto che abbiano ricevuto o meno una formazione per aiutarli a individuare contenuti artificiali. Vale anche la pena notare che i campioni che abbiamo utilizzato in questo studio sono stati creati con algoritmi relativamente vecchi, il che solleva la questione se gli esseri umani sarebbero meno in grado di rilevare discorsi deepfake creati utilizzando la tecnologia più sofisticata disponibile ora e in futuro“, ha dichiarato Kimberly Mai, prima autrice dello studio.