Come funziona Whisper, il nuovo tool di Open AI, e quali sono i requisiti

Arriva il nuovo tool di casa Open AI: Whisper. Perfetto per le trascrizioni, prevede però una serie di requisiti abbastanza stringenti

morghy il robottino giornalista
Morghy, il robottino giornalista

Ci sono vari strumenti di intelligenza artificiale che possono fare un lavoro eccellente se devi trascrivere un’intervista o un video. E uno di questi è Whisper di OpenAI.

Questo strumento rappresenta una svolta per i creatori di contenuti che hanno bisogno di generare sottotitoli, per le persone che hanno bisogno di trascrivere interviste o che vogliono semplicemente trasformare qualsiasi tipo di audio in testo. 

Come funziona Whisper, il nuovo tool di Open AI

Esistono alcuni modi per trascrivere un’intervista o un video. Potresti farlo a mano semplicemente ascoltando, oppure potresti utilizzare un servizio o uno strumento. Oppure con Whisper, di Open AI.

Whisper è un sistema di riconoscimento vocale automatico che dimostra un’incredibile precisione nella comprensione delle parole pronunciate. È stato costruito da OpenAI, presumibilmente per l’uso in sistemi come ChatGPT , dove ora puoi conversare con un’intelligenza artificiale.

Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI

Whisper prevede la formazione su 680.000 ore di dati supervisionati raccolti da Internet, un terzo dei quali non in inglese. L’audio viene suddiviso in blocchi di 30 secondi, convertito e quindi passato a un codificatore e un decodificatore addestrato proverà a prevedere la didascalia di testo corrispondente. 

Whisper di OpenAI è uno strumento open source che puoi eseguire localmente abbastanza facilmente seguendo alcuni tutorial. Il servizio è disponibile sia per Apple sia per Google, addirittura anche per un computer x86 . Basta seguire semplicemente le istruzioni nel repository Whisper Git per poter configurare Whisper in pochissimo tempo. 

A prova di errore, ma serve molta vRAM

L’azienda ci tiene però a precisare, come riporta Xda-developers, che Whisper commette fino al 50% in meno di errori rispetto ad altri modelli linguistici. Il problema è che Whisper non è uno strumento rivolto agli utenti finali ma piuttosto a sviluppatori e ricercatori. Puoi ancora configurarlo e usarlo, ma non è ancora un prodotto di consumo.

Inoltre, sul piano dei requisiti, è abbastanza stringente. Esistono più modelli che puoi utilizzare, e per ciascuno di essi esistono requisiti vRAM diversi. Il modello più grande richiede 10 GB di vRAM, sebbene sia anche il più preciso. 

Esistono anche modelli solo in inglese per ciascuno, che dovrebbe ridurre i requisiti di vRAM. In ogni caso, avrai bisogno di una buona GPU con abbastanza vRAM per farlo funzionare.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.