Dopo la V3, arriva dal laboratorio cinese DeepSeek la versione R1, un modello AI di ultima generazione talmente potente che addirittura supera le prestazioni di intelligenze artificiali come Llama, ChatGPT e Claude AI.
DeepSeek-R1, l’AI che batte (quasi) tutte le altre intelligenze
Stando a quanto riportato dall’ANSA, il modello DeepSeek-R1 rappresenta un grande passo avanti nel campo dell’intelligenza artificiale. Rilasciato con licenza open source MIT (quindi disponibile per chiunque), questo modello è stato sviluppato in soli due mesi e con meno di sei milioni di dollari. Tra l’altro utilizza chip NVIDIA H800 con capacità ridotte, nulla da invidiare alle ultime soluzioni rilasciate dal gigante tech.
Dov’è sta allora l’innovazione? Dal fatto che, malgrado queste caratteristiche, DeepSeek-R1 sia riuscito a superare modelli più costosi e potenti.
Diversi benchmark indipendenti, riportati anche dal sito di informazione Ars Technica, hanno dimostrato che questo modello ha superato in diversi test intelligenze artificiali quali Llama 3.1 di Meta, GPT-4o di OpenAI e Claude Sonnet 3.5 di Anthropic, risultando particolarmente brillante in compiti complessi come la matematica, il coding e il problem-solving. Addirittura, al confronto con o1 di OpenAI, DeepSeek-R1 ha superato l’ultimo modello di Sam Altman in numerosi test di terze parti.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
Un modello di AI molto “limitato”
Un aspetto che rende il successo di DeepSeek ancora più sorprendente è il modo in cui il laboratorio sia riuscito a sviluppare un modello all’avanguardia nonostante le restrizioni imposte dal governo degli Stati Uniti sull’esportazione di semiconduttori avanzati.
L’embargo americano ha infatti spinto DeepSeek a ottimizzare l’uso di chip meno potenti e a sviluppare, come riferisce il sito Medium, un’architettura Mixture-of-Experts (MoE), che attiva selettivamente solo una parte dei 671 miliardi di parametri del modello. L’approccio innovativo ha consentito di ottenere prestazioni eccellenti senza la necessità di risorse hardware immense.
Ma sempre con qualche limite a livello “espressivo”. Sebbene il modello sia open source e disponibile per tutti, come nel caso di altri modelli cinesi DeepSeek-R1 risponde solo a domande in linea con la politica cinese.