Le voci riprodotte da Alexa, dal Google Assistant e da altri assistenti basati su intelligenza artificiale sono molto più avanti dei dispositivi GPS della vecchia scuola, ma mancano ancora dei ritmi, dell’intonazione e di altre qualità che rendono il suono del parlato umano. NVIDIA ha svelato nuove ricerche e strumenti in grado di catturare le qualità naturali del parlato permettendo all’utente di addestrare il sistema di intelligenza artificiale con la propria voce, secondo quanto annunciato dala società alla conferenza Interspeech 2021.
Per migliorare la sua sintesi vocale di intelligenza artificiale, il team di ricerca di sintesi vocale di NVIDIA ha sviluppato un modello chiamato RAD-TTS. Il sistema consente a un individuo di addestrare un modello di sintesi vocale con la propria voce, inclusi il ritmo, la tonalità, il timbro e altro.
Un’altra caratteristica di RAD-TTS è la conversione vocale, che consente a un utente di pronunciare le parole di chi parla usando la voce di un’altra persona. Tale interfaccia offre un controllo fine, a livello di fotogramma, sull’intonazione, la durata e l’energia di una voce sintetizzata.
Utilizzando questa tecnologia, i ricercatori di NVIDIA hanno creato una narrazione vocale più colloquiale per la propria serie di video I Am AI utilizzando voci sintetizzate anziché umane. L’obiettivo era far sì che la narrazione corrispondesse al tono e allo stile dei video, cosa che fino a oggi non è stata eseguita in modo corretto in molti video narrati dall’intelligenza artificiale. I risultati sono ancora un po’ robotici, ma migliori di altre narrazioni effettuate tramite intelligenza artificiale.
“Con questa interfaccia, un produttore di video potrebbe registrarsi mentre legge la sceneggiatura del video e quindi utilizzare il modello di intelligenza artificiale per convertire il suo discorso nella voce narrante. Utilizzando questa narrazione di base, il produttore potrebbe quindi dirigere l’intelligenza artificiale come un doppiatore, modificando il discorso sintetizzato per enfatizzare parole specifiche e modificando il ritmo della narrazione per esprimere meglio il tono del video”, ha scritto NVIDIA.
NVIDIA sta distribuendo parte di questa ricerca, ottimizzata per funzionare in modo efficiente su GPU NVIDIA, ovviamente, a chiunque voglia provarla tramite open source tramite il toolkit NVIDIA NeMo Python per l’intelligenza artificiale conversazionale accelerata da GPU, disponibile sull’hub di container NGC dell’azienda e altri software.
“Molti modelli sono addestrati con decine di migliaia di ore di dati audio sui sistemi NVIDIA DGX. Gli sviluppatori possono mettere a punto qualsiasi modello per i loro casi d’uso, accelerando la formazione utilizzando il calcolo a precisione mista su GPU NVIDIA Tensor Core”, ha scritto la società.