Google ha ampliato il suo programma di premi per la vulnerabilità (VRP) per includere scenari di attacco specifici per l’intelligenza artificiale generativa.
Chiamato bug bounty, il programma di premi per la vulnerabilità di Google paga gli hacker etici per aver trovato e divulgato in modo responsabile i difetti di sicurezza.
Google combatte le minacce cyber alla sua AI premiandoti
Dato che l’intelligenza artificiale generativa porta alla luce nuovi problemi di sicurezza, come il potenziale di pregiudizi ingiusti o manipolazione dei modelli, Google ha affermato che ha cercato di ripensare il modo in cui i bug che riceve dovrebbero essere classificati e segnalati.
Come riportato da TechCrunch, il colosso della tecnologia afferma di farlo utilizzando i risultati del suo neonato AI Red Team. Si tratta di un gruppo di hacker che simula una varietà di avversari, che vanno dagli stati-nazione e dai gruppi sostenuti dal governo agli hacktivisti e addetti ai lavori dannosi per scovare le debolezze della sicurezza in tecnologia.
Per saperne di più: Sicurezza informatica: cos’è la cyber security e come metterla in atto
Le ricompense monetarie varieranno in base alla gravità della vulnerabilità scoperta. I ricercatori possono attualmente guadagnare 31.337 dollari se trovano attacchi di command injection e bug di deserializzazione in applicazioni altamente sensibili, come Ricerca Google o Google Play. Se i difetti riguardano app con priorità inferiore, la ricompensa massima è di 5.000 dollari.
Google afferma di aver pagato più di 12 milioni di dollari in premi ai ricercatori nel campo della sicurezza nel 2022.
I risultati del programma di ricerca
Il team ha recentemente condotto un esercizio per determinare le maggiori minacce alla tecnologia alla base di prodotti di intelligenza artificiale generativa come ChatGPT e Google Bard.
Il team ha scoperto che i modelli linguistici di grandi dimensioni (o LLM) sono vulnerabili agli attacchi di prompt injection, ad esempio, in cui un hacker crea suggerimenti contraddittori che possono influenzare il comportamento del modello. Un utente malintenzionato potrebbe utilizzare questo tipo di attacco per generare testo dannoso o offensivo o per divulgare informazioni riservate.
Hanno anche messo in guardia contro un altro tipo di attacco chiamato estrazione dei dati di addestramento (training-data extraction), che consente agli hacker di ricostruire esempi di addestramento letterale per estrarre informazioni di identificazione personale o password dai dati.