Nata nel 2019 grazie all’Incubatore del Politecnico di Torino, la startup italiana Clearbox AI ha puntato tutto sulla creazione di dataset che siano affidabili, completi e inclusivi.
Perché l’intelligenza artificiale generativa ha bisogno di nutrirsi di molti, moltissimi dati per addestrare i propri algoritmi, e non possono essere pieni di buchi, errori, pregiudizi, o con informazioni massicce ma spesso parziali. Per questo l’idea della startup è quella di rendere disponibili dati sintetici.
Clearbox AI e l’idea dei dati sintetici
Servono imponenti dataset per garantire il massimo dell’efficienza della propria intelligenza artificiale generativa. Ma se non sono di qualità, alla fine rischiano di creare più danni che benefici a chi li impiega come base di partenza per allenare i propri strumenti di intelligenza artificiale.
Per questo la startup italiana Clearbox AI ha la soluzione: i dati sintetici. Fondata dalla 35enne Shalini Kurapati, originaria di Chennai, India, e in Italia da alcuni anni, ha fatta sua la missione di “fornire loro dati di qualità per ottenere risultati di successo”.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Come raccontato a Wired, per dato sintetico si intende un insieme di “dati generati da algoritmi di intelligenza artificiale sulla base di dati veri, che ricreano in modo matematico e statistico situazioni di vita reale.”
Grazie ad un data engine ideato dal CTO di Clearbox AI, Luca Gilli, “i dati sintetici aiutano le aziende ad avere dati simili a quelli veri, senza problemi di privacy e a costi più contenuti”.
L’utilizzo dei dati sintetici
I campi di applicazione sono infiniti, dalla salute alla finanza passando all’innovazione di processo o prodotto. Grazie ad essi si può favorire l’avanzamento della ricerca facilitando la condivisione di dati che normalmente sono protetti. Nel campo della finanza sono invece utili nella prevenzione delle frodi dove i dati sintetici intervengono – come negli altri casi – su robustezza, calibrazione e affidabilità dei dataset.
Il successo della sua tecnologia è evidente: al momento conta quattro grandi clienti (due grandi aziende italiane, una francese e una tedesca) e una pipeline commerciale nutrita di aziende che vogliono sperimentare e testare i dati sintetici.
Davanti alle nuove limitazioni poste da recente AI Act, licenziato lo scorso giugno dal Parlamento europeo, la stessa Kurapati precisa che è “l’intelligenza artificiale può perpetuare involontariamente bias sociali, creando disuguaglianza nell’impatto della privacy tra diversi gruppi. Ma ci impegniamo a portare avanti questo obiettivo partendo dal prodotto che offriamo, che è un passo in avanti per garantire l’utilizzo conforme ed efficiente dell’intelligenza artificiale. […] Ci sono diversi rischi di privacy che l’intelligenza artificiale porta per la prima volta allo scoperto, e parte del nostro lavoro è cercare di mitigarli proprio attraverso l’uso dei dati sintetici”.