TurboQuant di Google cambia le regole dell’intelligenza artificiale

La nuova tecnologia riduce drasticamente le cache KV e accelera fino a otto volte le prestazioni su GPU Nvidia H100

Redazione
Google turboquant su Nvidia H100 comprime la cache KV degli LLM

La nuova tecnologia TurboQuant sviluppata da Google introduce un importante passo avanti nell’efficienza dei modelli linguistici di grandi dimensioni. L’algoritmo consente infatti di comprimere le cache KV fino a 3 bit senza alcuna perdita di accuratezza, riducendo il fabbisogno di memoria di almeno sei volte. Nei test condotti su GPU Nvidia H100, il sistema ha mostrato anche un incremento delle prestazioni fino a otto volte nel calcolo dell’attenzione, evidenziando un potenziale concreto per migliorare l’inferenza dei modelli AI su larga scala.

TurboQuant migliora la gestione della memoria nei modelli AI

Nei Large Language Model, le cache KV (key-value) svolgono un ruolo cruciale: memorizzano i dati di attenzione già calcolati, evitando di doverli rielaborare a ogni generazione di token. Tuttavia, con l’espansione delle finestre di contesto, queste cache sono diventate uno dei principali colli di bottiglia in termini di memoria.

TurboQuant interviene proprio su questo limite. Rispetto ai metodi tradizionali di quantizzazione vettoriale, che introducono un overhead dovuto ai parametri aggiuntivi da memorizzare, l’algoritmo elimina questo problema attraverso un processo in due fasi. La prima, chiamata PolarQuant, trasforma i vettori da coordinate cartesiane a coordinate polari, separando magnitudine e direzione. Questo approccio sfrutta la prevedibilità delle distribuzioni angolari per evitare la normalizzazione per blocchi, riducendo i costi computazionali e migliorando l’efficienza.

La seconda fase utilizza un livello di correzione dell’errore a 1 bit basato sull’algoritmo Quantized Johnson-Lindenstrauss (QJL). Questo sistema proietta l’errore residuo in uno spazio a dimensione inferiore, riducendo ogni valore a un singolo bit di segno e rimuovendo bias sistematici nel calcolo dell’attenzione, con un impatto minimo sulle risorse.

Prestazioni fino a otto volte superiori su Nvidia H100

I benchmark condotti mostrano risultati particolarmente rilevanti sul piano delle prestazioni. La versione a 4 bit di TurboQuant ha raggiunto un incremento fino a 8 volte nel calcolo dei logits di attenzione rispetto alle chiavi non quantizzate a 32 bit.

Questi dati evidenziano un miglioramento significativo non solo in termini di velocità, ma anche di efficienza complessiva. Riducendo la quantità di memoria necessaria e accelerando i calcoli, la tecnologia consente di ottimizzare l’utilizzo dell’hardware esistente, evitando investimenti immediati in nuove infrastrutture.

Per i data center e le aziende che operano su larga scala, questo si traduce in un doppio vantaggio: minori consumi energetici e maggiore capacità di gestire carichi di lavoro complessi. TurboQuant si inserisce quindi come soluzione concreta per affrontare le sfide legate alla scalabilità dei modelli AI.

Test su benchmark e modelli open source

Google ha validato TurboQuant su diversi benchmark a lungo contesto, tra cui LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval, utilizzando modelli open source come Gemma e Mistral. I risultati mostrano che l’algoritmo mantiene prestazioni elevate anche in scenari complessi.

In particolare, nei test “needle-in-a-haystack” — che valutano la capacità di recuperare informazioni specifiche in grandi volumi di dati — TurboQuant ha ottenuto punteggi perfetti, pur comprimendo la memoria KV di almeno sei volte. Sulla suite LongBench, che include attività come question answering, generazione di codice e sintesi, le prestazioni sono risultate pari o superiori alla baseline KIVI.

Applicazioni nella ricerca vettoriale e nell’industria

Oltre ai modelli linguistici, TurboQuant ha dimostrato risultati solidi anche nella ricerca vettoriale. Nei test sul dataset GloVe, l’algoritmo ha superato tecniche come Product Quantization e RabbiQ, ottenendo i migliori rapporti di recall 1@k nonostante l’utilizzo di codebook più compatti e senza necessità di ottimizzazioni specifiche per dataset.

Un elemento chiave è che TurboQuant non richiede training né fine-tuning, e introduce un overhead trascurabile in fase di esecuzione. Questo lo rende particolarmente adatto per l’implementazione in sistemi di inferenza in produzione e in infrastrutture AI su larga scala.

Il lavoro, firmato tra gli altri dal ricercatore Amir Zandieh e dal VP Vahab Mirrokni, sarà presentato alla conferenza ICLR 2026, segnando un ulteriore passo verso modelli AI più efficienti e sostenibili.

Verso un futuro di AI più efficiente grazie a TurboQuant

I professionisti dell’AI dovrebbero valutare oggi l’impatto di TurboQuant su progetti e infrastrutture esistenti. Per chi gestisce grandi modelli o vuole espandere in modo sostenibile i propri servizi, la compressione delle cache rappresenta una leva strategica reale. Monitorare le prossime soluzioni che adotteranno TurboQuant può mettere i primi utilizzatori in una posizione di vantaggio in termini di costi, efficienza e scalabilità.

Fonte: Tom’s Hardware

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.