OpenAI ha lanciato aggiornamenti molto attesi che consentiranno al suo popolare chatbot ChatGPT. Tra questi, ad esempio, la nuova possibilità di interagire con immagini e voci. Questo lancio rappresenta un passo importante verso la visione di OpenAI per l’intelligenza artificiale generale in grado di percepire ed elaborare informazioni da più modalità, non solo testo.
L’azienda sta iniziando a implementare nuove funzionalità vocali e di immagini in ChatGPT, “per offrire un nuovo tipo di interfaccia più intuitiva consentendo di avere una conversazione vocale o mostrare a ChatGPT di cosa stai parlando.”, ha affermato OpenAI nel suo blog ufficiale.
Il nuovo modello di sintesi vocale in ChatGPT-Plus
OpenAI ha affermato che il nuovo ChatGPT-Plus includerà una chat vocale basata su un nuovo modello di sintesi vocale in grado di imitare le voci umane e la capacità di discutere immagini grazie all’integrazione con i modelli di generazione di immagini dell’azienda.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Le nuove funzionalità sembrano far parte di ciò che è noto come GPT Vision (o GPT-V, che viene spesso confuso con un teorico GPT-5) e rappresentano componenti chiave della versione multimodale migliorata di GPT-4 che OpenAI ha anticipato all’inizio di quest’anno in una diretta YouTube.
Il generatore immagini DALL-E 3
Questo aggiornamento arriva subito dopo che OpenAI ha presentato DALL-E 3 , il suo generatore di testo in immagine più avanzato mai realizzato.
Salutato come “folle” dai primi tester per la sua qualità e precisione, DALL-E 3 può creare immagini ad alta fedeltà da istruzioni di testo comprendendo contesti complessi e concetti espressi in linguaggio naturale. Sarà integrato in ChatGPT Plus, un abbonamento- servizio basato che offre un ChatGPT alimentato da GPT-4.
Generatori di immagini come DALL-E, MidJourney e Stable Diffusion hanno aperto nuove frontiere creative per artisti e utenti occasionali a partire dal boom dell’intelligenza artificiale alla fine dello scorso anno. Traducendo le istruzioni di testo in immagini straordinarie.
L’integrazione di DALL-E 3 e della chat vocale conversazionale indica la spinta di OpenAI verso assistenti IA in grado di percepire il mondo più come fanno gli esseri umani, con più sensi.
Microsoft 365 e Copilot, la soluzione AI per Windows
Anche il più grande sostenitore di OpenAI, Microsoft, sta portando avanti l’integrazione delle capacità avanzate di intelligenza artificiale generativa di OpenAI nei propri prodotti di consumo.
Nel suo recente evento autunnale, Microsoft ha annunciato aggiornamenti AI a Windows 11, Office e Bing search sfruttando modelli come DALL-E 3 (in programmi di modifica delle immagini come il rinnovato Paint di Microsoft) e Copilot, l’assistente di programmazione di OpenAI.
Ciò è in linea con l’investimento di oltre 10 miliardi di dollari di Microsoft in OpenAI, riportato nel blog aziendale, poiché mira a guidare la corsa agli assistenti AI. Il debutto di Copilot in Windows 11 il 26 settembre promette di rendere disponibile l’aiuto dell’intelligenza artificiale su tutte le piattaforme e i dispositivi Microsoft.
Nel frattempo, Microsoft 365 Chat applica l’abilità del linguaggio naturale di OpenAI per automatizzare attività lavorative complesse.