Finalmente OpenAI ha annunciato il lancio di GPT-4o, un’iterazione del suo modello GPT-4 che alimenta il suo prodotto di punta, ChatGPT. GPT-4o (“o” sta per “omni”) è un passo avanti per l’azienda, nonché per tutti gli appassionati della tecnologia AI, visto che rende l‘interazione uomo-computer molto più naturale.
Ma vediamo meglio di cosa si tratta, come funziona e cosa cambia rispetto a GPT-4 Turbo.
Ecco GPT-4o, il nuovo modello AI di ChatGPT
Un passo avanti rispetto al passato. Ecco come sintetizzare GPT-4o. Anche perché il nuovo modello di OpenAI accetta come input qualsiasi combinazione di testo, audio e immagine e genera qualsiasi combinazione di output di testo, audio e immagine.
Riporta The Verge, l’ultimo aggiornamento di GPT rende il modello “molto più veloce” e migliora “le funzionalità di testo, visione e audio“, ha affermato lunedì Mira Murati, CTO di OpenAI, in un annuncio in live streaming.
Un ottimo risultato, se si conta che prima del lancio di GPT-4o, si prevedeva che OpenAI stesse per annunciare un motore di ricerca AI per rivaleggiare con Google e Perplexity, un assistente vocale integrato in GPT-4 o un modello totalmente nuovo e migliorato, GPT-5.
Come funziona GPT-4 Omni
In un post sul blog dell’azienda, OpenAI afferma che le funzionalità di GPT-4o “saranno implementate in modo iterattivo (con accesso esteso al team rosso a partire da oggi)”, ma le sue funzionalità di testo e immagini inizieranno a essere implementate oggi in ChatGPT.
Ma come funziona? Secondo OpenAI, GPT-o può rispondere agli input audio in soli 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano in una conversazione.
Il CEO di OpenAI, Sam Altman, ha affermato che il modello è “nativamente multimodale”, il che significa che potrebbe generare contenuti o comprendere comandi tramite voce, testo o immagini. Inoltre, grazie all’addestramento su un unico nuovo modello end-to-end su testo, visione e audio, tutti gli input e gli output vengono elaborati dalla stessa rete neurale.
E tutto nel rispetto della sicurezza dei dati. GPT-4o ha una sicurezza integrata fin dalla progettazione in tutte le modalità, attraverso tecniche come il filtraggio dei dati di addestramento e il perfezionamento del comportamento del modello attraverso la post-formazione. Inoltre, con i nuovi sistemi di sicurezza, viene fornita maggior protezione anche sulle uscite vocali.
GPT-4 vs GPT-4o cosa cambia
GPT-4o ha la stessa elevata intelligenza, ma è più veloce, più economico e ha limiti di velocità più elevati rispetto a GPT-4 Turbo. Nello specifico:
- GPT-4o è più economico del 50% rispetto a GPT-4 Turbo, arrivando a $ 5/milione di token in ingresso e $ 15/milione di token in uscita).
- I limiti di velocità sono 5 volte superiori rispetto a GPT-4 Turbo: fino a 10 milioni di token al minuto.
- Il nuovo modello è 2 volte più veloce di GPT-4 Turbo.
- Le capacità visive del nuovo chatbot funzionano meglio di GPT-4 Turbo nelle valutazioni relative alle capacità visive.
- Il nuovo modello AI ha un migliore supporto per le lingue diverse dall’inglese rispetto a GPT-4 Turbo.
Ma attenzione. GPT-4o ha attualmente una finestra di contesto di 128k e ha una data limite per la conoscenza di ottobre 2023.
Come precisa OpenAI, il nuovo modello eguaglia le prestazioni di GPT-4 Turbo su testo in inglese e codice, con un miglioramento significativo su testo in lingue diverse dall’inglese. GPT-4o è particolarmente migliore nella comprensione della visione e dell’audio rispetto ai modelli esistenti.
Quando sarà disponibile GPT-4o
GPT-4o sarà inizialmente disponibile in ChatGPT e nell’API come modello di testo e visione (ChatGPT continuerà a supportare la voce tramite la funzionalità Modalità vocale preesistente).
Nello specifico, GPT-4o sarà disponibile in ChatGPT Free, Plus e Team (con Enterprise in arrivo) e nell’API Chat Completions, Assistants API e Batch API.
Sarà gratuito per tutti gli utenti, ma quelli a pagamento continueranno ad “avere fino a cinque volte i limiti di capacità” degli utenti gratuiti, ha aggiunto Murati.
Al momento, precisa la società, GPT-4o è stato anche sottoposto a un ampio team con oltre 70 esperti esterni in settori quali psicologia sociale, pregiudizi, equità e disinformazione per identificare i rischi introdotti o amplificati dalle modalità appena aggiunte.
Nelle prossime settimane e mesi la società lavorerà ancora di più sull’infrastruttura tecnica, sull’usabilità tramite post-formazione e sulla sicurezza necessaria per rilasciare le altre modalità. Ad esempio, al momento del lancio, gli output audio saranno limitati a una selezione di voci preimpostate e rispetteranno le nostre politiche di sicurezza esistenti.