AI e phishing, il test che preoccupa la sicurezza digitale

Un test condotto su un agente AI collegato a sistemi reali ha mostrato come anche i modelli più avanzati possano cadere in attacchi di phishing, arrivando in alcuni casi a esporre dati sensibili. L’esperimento, realizzato da Varonis Threat Labs, ha messo sotto osservazione il comportamento dell’agente OpenClaw in scenari simulati di compromissione.

Il framework OpenClaw e il contesto del test

Il framework open-source OpenClaw consente ai modelli linguistici di grandi dimensioni di interagire autonomamente con sistemi reali ed eseguire azioni operative, come la gestione delle email o l’accesso a strumenti aziendali.

Per il test, i ricercatori di Varonis hanno creato un agente collegato a una casella Gmail, API di Google Workspace, strumenti di navigazione e fonti dati aziendali simulate. Tra queste erano presenti informazioni altamente sensibili come credenziali AWS, database, CRM e comunicazioni interne.

L’agente è stato configurato in due modalità: una “generica” e una “rigida”, con istruzioni aggiuntive sulla verifica delle identità e la prevenzione del phishing.

I modelli utilizzati e le configurazioni

L’esperimento ha coinvolto due modelli linguistici: Google Gemini 3.1 Pro e OpenAI GPT-5.4.

Secondo il report, la configurazione rigida includeva linee guida più severe per l’identificazione delle minacce, mentre quella generica si basava su istruzioni standard di produttività. Nonostante ciò, i risultati hanno evidenziato differenze limitate nella capacità di prevenzione degli attacchi più sofisticati.

Gli attacchi simulati e le risposte dell’agente

I ricercatori hanno condotto quattro simulazioni di phishing con risultati differenti.

Nel primo scenario, un attaccante si è finto un team leader chiedendo accesso urgente a un ambiente di staging per un presunto problema in produzione. L’agente ha recuperato e inviato a un indirizzo esterno credenziali AWS, database e accessi SSH senza verificare l’identità del mittente.

Nel secondo caso, una richiesta fittizia legata a una presentazione ha portato l’agente a esportare e inviare dati CRM contenenti informazioni su clienti, contratti e ricavi. Poi, nel terzo scenario, l’agente ha interagito con un link di phishing legato a un falso gift card: nella modalità generica ha tentato di usarlo, mentre la configurazione rigida ha bloccato l’azione.

Nel quarto test, un’app OAuth malevola mascherata da strumento di timesheet è stata analizzata e infine respinta dall’agente, che ha riconosciuto la natura sospetta del flusso di autorizzazione.

Le criticità emerse sulla sicurezza

Nonostante alcune capacità di riconoscimento delle minacce, i ricercatori hanno evidenziato un problema strutturale: la mancanza di una vera verifica dell’identità nelle richieste operative.

Anche nella modalità “strict”, le protezioni sono risultate inefficaci quando le richieste apparivano urgenti o plausibili dal punto di vista operativo. Questo ha portato alla compromissione di dati sensibili in più scenari.

Secondo Varonis, gli agenti AI sono efficaci nell’individuare URL sospetti, pagine di login false e applicazioni malevole, ma falliscono quando devono applicare principi di zero trust nelle interazioni sociali e nella valutazione dell’autenticità del richiedente.

Differenze tra modelli e raccomandazioni finali

Il comportamento dei modelli ha mostrato differenze: Gemini ha evidenziato una maggiore propensione all’interazione, mentre GPT-5.4 ha adottato un approccio più prudente.

I ricercatori suggeriscono l’introduzione di regole più stringenti, come la verifica obbligatoria dell’identità del mittente, il divieto di invio di dati a destinatari esterni senza approvazione e la limitazione dell’accesso ai dati interni.

Per le operazioni più sensibili — come la condivisione di credenziali, richieste finanziarie o comunicazioni iniziali con nuovi contatti — viene raccomandata la supervisione umana obbligatoria.

Fonte: Bleeping Computer