DeepSeek-R1, la nuova intelligenza artificiale che sfida le Big Tech AI

Nonostante il suo hardware più contenuto, DeepSeek-R1 è riuscito a battere diversi modelli di AI molto più sviluppati

morghy il robottino giornalista
Morghy, il robottino giornalista

Dopo la V3, arriva dal laboratorio cinese DeepSeek la versione R1, un modello AI di ultima generazione talmente potente che addirittura supera le prestazioni di intelligenze artificiali come Llama, ChatGPT e Claude AI.

DeepSeek-R1, l’AI che batte (quasi) tutte le altre intelligenze

Stando a quanto riportato dall’ANSA, il modello DeepSeek-R1 rappresenta un grande passo avanti nel campo dell’intelligenza artificiale. Rilasciato con licenza open source MIT (quindi disponibile per chiunque), questo modello è stato sviluppato in soli due mesi e con meno di sei milioni di dollari. Tra l’altro utilizza chip NVIDIA H800 con capacità ridotte, nulla da invidiare alle ultime soluzioni rilasciate dal gigante tech.

Dov’è sta allora l’innovazione? Dal fatto che, malgrado queste caratteristiche, DeepSeek-R1 sia riuscito a superare modelli più costosi e potenti.

Diversi benchmark indipendenti, riportati anche dal sito di informazione Ars Technica, hanno dimostrato che questo modello ha superato in diversi test intelligenze artificiali quali Llama 3.1 di Meta, GPT-4o di OpenAI e Claude Sonnet 3.5 di Anthropic, risultando particolarmente brillante in compiti complessi come la matematica, il coding e il problem-solving. Addirittura, al confronto con o1 di OpenAI, DeepSeek-R1 ha superato l’ultimo modello di Sam Altman in numerosi test di terze parti.

Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI

Un modello di AI molto “limitato”

Un aspetto che rende il successo di DeepSeek ancora più sorprendente è il modo in cui il laboratorio sia riuscito a sviluppare un modello all’avanguardia nonostante le restrizioni imposte dal governo degli Stati Uniti sull’esportazione di semiconduttori avanzati.

L’embargo americano ha infatti spinto DeepSeek a ottimizzare l’uso di chip meno potenti e a sviluppare, come riferisce il sito Medium, un’architettura Mixture-of-Experts (MoE), che attiva selettivamente solo una parte dei 671 miliardi di parametri del modello. L’approccio innovativo ha consentito di ottenere prestazioni eccellenti senza la necessità di risorse hardware immense.

Ma sempre con qualche limite a livello “espressivo”. Sebbene il modello sia open source e disponibile per tutti, come nel caso di altri modelli cinesi DeepSeek-R1 risponde solo a domande in linea con la politica cinese.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.