Google potenzia Gemini 3.5 Flash con Computer Use

Google integra Computer Use in Gemini 3.5 Flash: l’AI ora può interagire direttamente con desktop, browser e smartphone

Redazione

Google continua ad ampliare le capacità della propria intelligenza artificiale. La novità riguarda Gemini 3.5 Flash, che ora incorpora direttamente la funzione Computer Use, una tecnologia che consente al modello di comprendere interfacce grafiche e interagire con applicazioni, browser e dispositivi mobili. La funzionalità è già disponibile in anteprima attraverso la Gemini API e la piattaforma Gemini Enterprise Agent Platform.

Come funziona la nuova funzione Computer Use

Il sistema opera attraverso un processo ciclico che parte dall’analisi di uno screenshot dell’interfaccia con cui deve lavorare. Dopo aver esaminato l’immagine, Gemini suggerisce una serie di azioni, come clic del mouse, scorrimento delle pagine o digitazione tramite tastiera.

L’applicazione sviluppata dall’utente esegue queste operazioni, acquisisce una nuova schermata e la invia nuovamente al modello. Il processo continua fino al completamento dell’attività richiesta, creando un flusso di lavoro continuo e automatizzato.

Secondo Google, la tecnologia può essere utilizzata in diversi scenari, dall’inserimento automatico di dati nei moduli ai test delle applicazioni, fino alle attività di ricerca distribuite su più siti web e ai workflow aziendali più complessi.

Dal browser al desktop: un supporto più ampio

Uno degli aspetti più rilevanti dell’aggiornamento riguarda l’estensione degli ambienti supportati. Nelle versioni precedenti, infatti, le funzionalità di controllo erano concentrate principalmente sui browser web.

Con la nuova integrazione, invece, Computer Use può operare anche in ambienti desktop e mobile, ampliando sensibilmente le possibilità di utilizzo per aziende e sviluppatori.

In passato questa tecnologia era disponibile tramite il modello separato Gemini 2.5 Computer Use in versione preview. Successivamente era arrivata anche nelle versioni preliminari di Gemini 3 Pro e Gemini 3 Flash. La differenza sostanziale è che ora la funzionalità viene incorporata direttamente nel modello principale.

Google ricorda inoltre che Gemini 3.5 Flash è progettato per offrire elevate prestazioni nelle attività di programmazione e nei workflow AI avanzati, con una finestra di contesto che può gestire fino a un milione di token in ingresso e fino a 65.000 token in uscita.

Sicurezza rafforzata contro operazioni rischiose e prompt injection

L’aggiornamento include anche un rafforzamento delle misure di sicurezza. Google ha infatti dichiarato di aver sottoposto il modello a un addestramento specifico per contrastare possibili scenari di attacco legati al controllo del computer.

Tra le protezioni implementate figurano meccanismi che possono richiedere la conferma esplicita dell’utente prima di eseguire operazioni considerate sensibili o irreversibili.

Qualora tale conferma non venga fornita, il sistema interrompe automaticamente il flusso di lavoro. Un comportamento analogo viene adottato anche nel caso in cui vengano rilevati possibili tentativi di prompt injection, una delle tecniche più utilizzate per cercare di manipolare il comportamento dei modelli di intelligenza artificiale.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.