Dalla startup cinese DeepSeek arriva il V3, un nuovo modello linguistico di grandi dimensioni che, secondo i test, non solo si distingue tra i principali modelli open-source, ma è anche pronto a sfidare senza problemi colossi closed-source come OpenAI e Anthropic.
DeepSeek-V3, il nuovo modello open-source
Il lancio di DeepSeek-V3 segna un importante passo avanti per le tecnologie AI open-source, dimostrando che modelli di questo tipo possono avvicinarsi sempre più alle prestazioni di quelli tradizionali.
Addestrato su un set di dati di 14,8 trilioni di token (per intenderci, 1 milione di token equivale a circa 750.000 parole), il modello V3 è dotato di un’architettura “mixture-of-experts” (MoE), che attiva solo una piccola porzione dei suoi 671 miliardi di parametri per eseguire compiti specifici. Questa caratteristica, combinata con la “multi-head latent attention” (MLA), garantisce efficienza in termini di training e inferenza.
Particolarità del DeepSeek-V3 è l’introduzione di due innovazioni chiave: la bilanciata distribuzione del carico senza perdita e la previsione multi-token (MTP). Queste tecniche non solo migliorano l’efficienza computazionale ma permettono una generazione di testo tre volte più rapida rispetto ai rivali, producendo fino a 60 token al secondo.
Disponibile con una licenza permissiva che consente anche l’utilizzo commerciale, il modello è testabile attraverso DeepSeek Chat, una piattaforma simile a ChatGPT, oppure integrare la tecnologia tramite API. Inoltre, è accessibile su GitHub con licenza MIT, dimostrando così di essere uno strumento prezioso anche per sviluppatori e ricercatori.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Prestazioni e limiti
DeepSeek-V3 eccelle in una vasta gamma di compiti, dal coding alla traduzione, fino alla scrittura di testi complessi. Nei test su piattaforme come Codeforces, il modello ha superato concorrenti come Llama 3.1 e Qwen 2.5, dimostrando un’integrazione fluida del nuovo codice in contesti preesistenti.
Inoltre, stando ai risultati del benchmark Aider Polyglot (un test progettato per misurare se un modello può scrivere con successo un nuovo codice che si integra nel codice esistente), DeepSeek-V3 si è distinto nella comprensione linguistica e nella capacità di generare codice complesso.
Queste prestazioni lo collocano al vertice dei modelli open-source, con capacità che competono direttamente con soluzioni closed-source di punta. Tuttavia, DeepSeek-V3 non è privo di limiti. Come molte AI sviluppate in Cina, il modello è soggetto a regolamentazioni governative che ne influenzano le risposte su temi politicamente sensibili.