Deepseek OCR, il nuovo modello AI per l’analisi dei testi lunghi

Deepseek lancia OCR, un sistema AI multimodale che digitalizza e analizza documenti complessi con risorse minime

Redazione

Deepseek ha presentato OCR, un nuovo modello di intelligenza artificiale multimodale open source, capace di gestire documenti complessi con un’efficienza senza precedenti.

Architettura e funzionamento di Deepseek OCR

Stando al comunicato della startup, il modello si basa su due componenti principali: il DeepEncoder, che si occupa della compressione dei documenti riducendo il numero di token necessari per le operazioni, e il decoder DeepSeek3B-MoE-A570M, incaricato di ricostruire il testo originale.

Sul piano operativo, Deepseek OCR riduce tra le 7 e le 20 volte i token necessari per elaborare contenuti complessi, come tabelle intricate, formule matematiche e diagrammi elaborati.

Nei benchmark interni, il sistema ha raggiunto oltre il 96% di accuratezza con compressioni 9-10x (equivalenti a 10 token testuali compressi in un token visivo) e circa il 60% con una compressione estrema di 20x. Per il training, una singola GPU Nvidia A100 da 40 GB permette di generare oltre 200mila pagine di dati al giorno, rendendo il modello accessibile anche a team di ricerca con risorse limitate.

Grazie alla “mappatura ottica 2D”, il sistema riduce significativamente le risorse necessarie per l’elaborazione di testi, tabelle, formule e diagrammi, rendendolo particolarmente utile per applicazioni scientifiche, finanziarie e di digitalizzazione storica.

Applicazioni e prospettive future

Deepseek OCR si è dimostrato promettente in ambiti come la digitalizzazione storica e l’elaborazione di materiali d’archivio, dove è fondamentale ridurre i costi di archiviazione e calcolo. Il modello supporta l’analisi di grafici e diagrammi ad alta precisione, formule chimiche, elementi geometrici, immagini con testo incorporato e documenti multilingue.

Secondo l’azienda cinese, DeepSeek-OCR rappresenta un passo avanti significativo per affrontare la sfida dell’elaborazione efficiente di testi lunghi. Sfruttando la modalità visiva come mezzo di compressione, “il sistema dimostra che è possibile ottenere una sostanziale riduzione dei token (7-20 volte) per diverse fasi del contesto, mantenendo al contempo un’elevata accuratezza“.

Deepseek OCR è già disponibile su GitHub e Hugging Face, aprendo la porta a sviluppatori e ricercatori di tutto il mondo.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.