“Google sta iniziando a rendere disponibili aggiornamenti di Gemini per dar vita a conversazioni ancora più dinamiche e coinvolgenti“. Così Big G ha annunciato alle email di tutti gli utenti del suo chatbot AI le ultime novità per la versione conversazionale, Gemini Live.
Google potenzia Gemini Live: la piattaforma diventa ancora più interattiva
In una maniera abbastanza inusuale, Google ha recentemente annunciato via email alcune novità per Gemini Live, la sua piattaforma conversazionale. Un chatbot che, pur nascendo come risposta alla modalità vocale avanzata sviluppata da OpenAI, ha saputo evolversi e migliorare costantemente, trovando una sua identità nel panorama delle soluzioni basate sull’intelligenza artificiale.
Miglioramento della comprensione multilingue per Gemini Live
Una delle novità più attese riguarda la gestione simultanea di diverse lingue, dialetti e accenti in una singola conversazione. Fino ad oggi, Gemini Live aveva mostrato qualche limite rispetto ai modelli concorrenti, come quelli di OpenAI, quando si trattava di comprendere e rispondere in contesti multilingue.
Con il nuovo aggiornamento, Google sembra aver colmato questa lacuna, migliorando l’accuratezza e la fluidità delle conversazioni che coinvolgono più lingue, rendendo l’esperienza più naturale e accessibile anche per utenti che parlano diverse lingue o che utilizzano accenti regionali.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Condivisione dello schermo e privacy sui contenuti
Oltre al miglioramento della gestione delle lingue, Google ha introdotto altre funzionalità che potenziano l’interattività di Gemini Live. Tra queste, spicca la possibilità di condividere lo schermo e di effettuare lo streaming video in tempo reale. Già presentate in anteprima durante la dimostrazione del progetto Astra, queste caratteristiche ora sono pronte per essere utilizzate da tutti gli utenti della piattaforma.
Sul fronte della privacy, Google ha annunciato che i contenuti audio, video e le condivisioni dello schermo verranno archiviati in una sezione dedicata all’interno delle “Attività delle App Gemini”. Tuttavia, gli utenti avranno il pieno controllo su questi dati, potendo gestirli o eliminarli facilmente. Google ha anche ribadito che i dati vocali e audio non vengono attualmente conservati sui suoi server, in conformità con le politiche di privacy più recenti.
Altre novità per Gemini, dall’API a Imagen 3
Oltre alle novità dell’email, come ribadisce il sito specializzato 9to5google, con il lancio di Gemini 2.0, Google ha introdotto un’importante innovazione tecnologica: una API multimodale Live dedicata agli sviluppatori.
Questa nuova API consente di elaborare simultaneamente input testuali, audio e video, generando output che può essere sia testuale che audio. In altre parole, gli sviluppatori ora possono integrare facilmente capacità avanzate di interazione multimediale nelle loro applicazioni, sfruttando il meglio delle potenzialità di Gemini Live per creare esperienze utente ancora più ricche e coinvolgenti.
Infine, tra le novità più interessanti, Google ha potenziato Imagen 3, che ora è in grado di creare immagini di persone con una qualità sorprendente. Questo miglioramento apre nuove possibilità nell’utilizzo della piattaforma, consentendo di generare immagini realistiche e dettagliate in base alle richieste dell’utente. Le applicazioni di questa tecnologia spaziano dalla creazione di contenuti personalizzati alla progettazione di scenari visivi per marketing, media e altro ancora.