Zoho Labs cambia rotta sull’AI: ora punta sull’inference engineering

L’inference engineering è diventata il nuovo asse strategico di Zoho Labs, segnando un cambiamento profondo nel modo in cui il laboratorio di ricerca affronta l’intelligenza artificiale. A DevSparks 2026, a Bengaluru, Ramprakash Ramamoorthy, direttore della AI Research di Zoho Corp, ha spiegato come l’arrivo dei modelli open-weight abbia costretto i team interni a ripensare il proprio ruolo, spostando il focus dalla creazione di modelli proprietari all’ottimizzazione di quelli già disponibili.

L’impatto dei modelli open-weight sulla ricerca AI

L’ascesa dei modelli open-weight, cioè sistemi i cui parametri sono pubblicamente disponibili e utilizzabili liberamente, ha modificato rapidamente l’economia dell’AI. Per molti laboratori interni, questo ha aperto una domanda cruciale: qual è oggi il vero valore della ricerca proprietaria?

Zoho Labs ha vissuto direttamente questa trasformazione. Dopo anni di sviluppo interno su machine learning, computer vision e strumenti linguistici, il 2023 ha rappresentato uno spartiacque: modelli open source più avanzati hanno superato soluzioni costruite in anni di lavoro, come nel caso della traduzione automatica, passata da 15 coppie linguistiche sviluppate internamente a circa 90 offerte dai nuovi sistemi pubblici.

Dalla costruzione dei modelli all’ottimizzazione dei sistemi

Di fronte a questo scenario, Zoho ha adottato una strategia su tre direttrici: Zoho AI Bridge per integrare modelli esterni e open-weight, modelli interni più piccoli per compiti quotidiani come riassunti e gestione email, e soprattutto l’inference engineering come nuovo centro di gravità.

Il laboratorio era nato per risolvere problemi ricorrenti tra oltre 100 prodotti dell’ecosistema Zoho, evitando duplicazioni tra team diversi. Con il tempo, però, la missione si è evoluta: non più solo costruire, ma soprattutto ottimizzare ciò che già esiste, riducendo sprechi e aumentando l’efficienza operativa.

Che cosa significa inference engineering

Per inference engineering si intende l’insieme di tecniche che migliorano il momento in cui un modello AI elabora i dati e produce una risposta. Non riguarda quindi l’addestramento, ma la fase di utilizzo reale dei modelli.

Zoho Labs si è concentrata su come rendere questa fase più veloce, economica e scalabile. L’obiettivo è adattare i modelli ai flussi di lavoro aziendali, migliorando la reattività dei servizi e la loro capacità di gestire grandi volumi di richieste in tempo reale.

In un contesto competitivo e in continua evoluzione, questa ottimizzazione diventa un elemento decisivo per garantire efficienza e qualità nelle applicazioni AI.

Il “101% project” e le tecniche di efficienza

Il laboratorio ha sperimentato diverse alternative architetturali ai transformer, tra cui RWKV, Mamba e Zamba, ma la crescita continua dei transformer ha reso queste opzioni meno competitive nel tempo. Per questo Zoho ha scelto di spingere sull’ottimizzazione estrema dei modelli esistenti, definendo internamente il cosiddetto “101% project”.

L’azienda gestisce circa sei miliardi di API call al mese con risorse GPU limitate, rendendo fondamentale ogni miglioramento di efficienza. Tra le tecniche adottate ci sono la quantizzazione, che riduce la precisione dei dati meno rilevanti per accelerare i calcoli senza perdere qualità, e la gestione della KV cache, che funziona come una memoria a breve termine del modello.

A queste si aggiungono il continuous batching, che aggrega richieste multiple, e lo speculative decoding, in cui un modello piccolo genera una bozza che viene poi verificata da uno più grande, riducendo tempi e costi complessivi.

Una nuova definizione del ruolo dei laboratori AI

Secondo Ramamoorthy, il tempo dedicato esclusivamente all’addestramento di nuovi modelli generalisti è ormai in parte superato. Il valore si sposta sempre più verso l’utilizzo efficiente dei sistemi esistenti.

In questo contesto, l’inference engineering rappresenta per Zoho Labs non solo una scelta tecnica, ma una vera ridefinizione strategica: ottenere di più da ciò che già esiste, migliorando prestazioni e sostenibilità.

Per le aziende con risorse limitate, questo approccio indica una direzione chiara: la competitività nell’AI non dipende più solo dalla creazione dei modelli, ma dalla capacità di farli funzionare meglio, più velocemente e su larga scala.

Fonte: Your Story

Zoho Labs cambia rotta sull’AI: ora punta tutto sull’inference engineering

L’impatto dei modelli open-weight sulla ricerca AI

Dalla costruzione dei modelli all’ottimizzazione dei sistemi

Che cosa significa inference engineering

Il “101% project” e le tecniche di efficienza

Una nuova definizione del ruolo dei laboratori AI

Iscriviti alla newsletter

L’impatto dei modelli open-weight sulla ricerca AI

Dalla costruzione dei modelli all’ottimizzazione dei sistemi

Che cosa significa inference engineering

Il “101% project” e le tecniche di efficienza

Una nuova definizione del ruolo dei laboratori AI

Iscriviti alla newsletter

Articoli correlati