OpenAI accelera sull’audio: nuovo modello vocale in arrivo nel 2026

OpenAI prepara un LLM dedicato alla voce come primo passo verso dispositivi fisici basati sull’audio

Redazione
operator

OpenAI prepara un nuovo passo nella propria strategia sull’intelligenza artificiale: nel primo trimestre del 2026 l’azienda annuncerà un nuovo modello linguistico audio, pensato come tappa intermedia verso lo sviluppo di dispositivi fisici basati principalmente sulla voce.

Un nuovo modello audio per colmare il divario con il testo

La notizia emerge da un report di The Information, che cita fonti interne ed ex dipendenti a conoscenza dei piani della società. Secondo quanto riportato, OpenAI ha avviato un’iniziativa interna che riunisce team di ingegneria, prodotto e ricerca con un obiettivo preciso: migliorare le prestazioni dei modelli audio, che all’interno dell’azienda vengono considerati meno accurati e più lenti rispetto a quelli testuali.

I ricercatori avrebbero anche rilevato che solo una minoranza degli utenti di ChatGPT utilizza l’interfaccia vocale, mentre la stragrande maggioranza continua a preferire l’interazione tramite testo. Il potenziamento dei modelli audio avrebbe quindi una doppia funzione: rendere la voce più competitiva sul piano tecnico e, allo stesso tempo, spingere gli utenti a cambiare abitudini, favorendo un utilizzo più frequente delle interfacce vocali.

L’idea di fondo è che un audio più affidabile e veloce possa permettere a ChatGPT e ai prodotti OpenAI di essere integrati in contesti dove lo schermo non è centrale, come ad esempio le automobili o altri dispositivi sempre attivi.

Dall’AI ai dispositivi fisici: la scommessa sulla voce

Stando anche a quanto riportato da Ars Technica, il nuovo modello audio sarebbe solo il primo tassello di una strategia più ampia. OpenAI, infatti, prevede di lanciare una famiglia di dispositivi fisici nei prossimi anni, a partire da un primo prodotto fortemente orientato all’audio. All’interno dell’azienda si sarebbe discusso di diverse forme possibili, tra cui smart speaker e occhiali intelligenti, ma il punto comune resterebbe l’assenza di un’interfaccia tradizionale basata sullo schermo.

OpenAI non è l’unica a muoversi in questa direzione. Google, Meta, Amazon e altri grandi player tecnologici stanno intensificando gli investimenti in tecnologie vocali e audio, come dimostra anche la spinta di Meta nel settore degli smart glasses. Il contesto ricorda, in parte, il boom degli assistenti vocali di qualche anno fa — Alexa, Google Assistant e Siri — che però hanno mostrato limiti significativi, conquistando soprattutto utenti meno esperti di tecnologia.

Secondo alcuni sviluppatori e designer, tra cui Jony Ive, ex responsabile del design di Apple, i prodotti controllati principalmente dalla voce potrebbero risultare meno “addictive” rispetto a quelli basati sugli schermi, anche se — come sottolineato — non esistono prove solide a supporto di questa tesi.

Il primo dispositivo audio di OpenAI, sempre secondo le fonti citate, dovrebbe arrivare sul mercato tra circa un anno, ma al momento non sono noti dettagli concreti su design e funzionalità.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.