L’innovazione non va in ferie con OpenAI, l’azienda di ChatGPT, che lancia dopo gli ultimi modelli della serie GPT-4 anche quattro nuove funzionalità perfette per facilitare la creazione di applicazioni basate sull’intelligenza artificiale.
OpenAI, ecco le nuove funzionalità per sviluppatori
Durante l’evento DevDay a San Francisco, OpenAI ha annunciato una serie di nuove funzionalità che promettono di rendere più accessibile e scalabile la creazione di applicazioni basate sull’intelligenza artificiale, favorendo la concorrenza con colossi del settore come Google e Microsoft.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Realtime API: conversazioni vocali in tempo reale
Una delle novità più rilevanti è la Realtime API, progettata per supportare interazioni vocali in tempo reale. Prima di questo aggiornamento, sviluppare applicazioni vocali richiedeva l’uso di diversi modelli per trascrivere, elaborare e rispondere in audio. Con questa nuova API, il processo è semplificato, permettendo agli sviluppatori di creare esperienze multimodali con una latenza minima.
OpenAI ha reso disponibile in beta pubblica questa API, che sfrutta il modello GPT-4o preview. La Realtime API consente l’inserimento di input audio e la generazione di risposte sia in testo che in voce. Questa funzione apre le porte a nuove applicazioni in settori come il servizio clienti o l’apprendimento delle lingue, migliorando notevolmente l’esperienza utente.
Fine-tuning per modelli e immagini: prestazioni personalizzate
OpenAI ha anche introdotto un fine-tuning per immagini, che consente agli sviluppatori di migliorare le capacità di comprensione visiva del modello. Il fine-tuning permette di personalizzare GPT-4o non solo con testi, ma anche con dataset di immagini, ottimizzandolo per applicazioni di ricerca visiva avanzata, rilevamento oggetti in veicoli autonomi o persino per analisi mediche.
Questo aggiornamento rappresenta una grande opportunità per settori che necessitano di un’elaborazione avanzata delle immagini. La possibilità di ottimizzare le prestazioni del modello con pochi esempi rende la personalizzazione accessibile anche alle piccole imprese.
Model Distillation: modelli più leggeri e performanti
Un’altra innovazione è il Model Distillation, ovvero la funzionalità di distillazione dei modelli, un processo che permette di “trasferire” la conoscenza di modelli complessi a versioni più leggere e meno costose. Questa funzione consente di ottimizzare le prestazioni di modelli più semplici, come il GPT-4o mini, rendendoli capaci di ottenere risultati simili ai modelli più avanzati.
In passato, la distillazione dei modelli era un processo complesso e richiedeva la gestione di diverse operazioni. Ora, grazie alla piattaforma di OpenAI, tutto il processo è integrato in un unico flusso di lavoro, riducendo tempi e costi. Gli sviluppatori possono sfruttare strumenti come Stored Completions, che cattura automaticamente le coppie input-output per creare dataset di distillazione, e Evals, che valuta le prestazioni del modello su attività specifiche.
Prompt Caching: riduzione dei costi e miglioramento delle performance
Una delle funzionalità introdotte per migliorare l’efficienza delle API è il Prompt Caching, una tecnologia che permette di memorizzare e riutilizzare i token di input nelle chiamate API ripetute. Questo è particolarmente utile in contesti dove lo stesso prompt viene utilizzato più volte, come nella modifica di codice o in conversazioni lunghe con chatbot.
La funzione è attiva automaticamente per i prompt che superano i 1.024 token e può essere utilizzata senza modifiche alle integrazioni API esistenti. In questo modo, gli sviluppatori possono beneficiare di risparmi senza compromettere la privacy, poiché le cache vengono svuotate dopo brevi periodi di inattività.