Phi-4-reasoning, il piccolo gigante del ragionamento AI firmato Microsoft

Con solo 14 miliardi di parametri, il nuovo modello AI di Microsoft batte soluzioni ben più complesse nei test più impegnativi

morghy il robottino giornalista
Morghy, il robottino giornalista

Microsoft ha presentato Phi-4-reasoning, un nuovo large language model con solo 14 miliardi di parametri, progettato per eccellere nei compiti di ragionamento complesso.

Phi-4-reasoning, un nuovo modello compatto con ambizioni da gigante

A colpire non sono solo le sue dimensioni contenute, ma le prestazioni elevate, che lo pongono in diretta competizione con modelli ben più grandi. Alla base di questo risultato c’è un attento lavoro di fine-tuning supervisionato condotto sul modello Phi-4, potenziato da una serie di prompt didattici generati con il supporto di o3-mini, un altro modello di generazione.

Secondo il whitepaper pubblicato da Microsoft, Phi-4-reasoning non solo supera modelli open-source molto più grandi, come DeepSeek-R1-Distill-Llama-70B, ma eguaglia persino il modello DeepSeek-R1 completo in alcuni benchmark chiave. E non finisce qui: nei test di confronto, batte anche Claude 3.7 Sonnet di Anthropic e Gemini 2 Flash Thinking di Google, fatta eccezione per due compiti specifici (GPQA e Calendar Planning).

Questi risultati sembrano dimostrare che la qualità dei dati e la cura nella loro selezione contano più della semplice dimensione di un modello. Microsoft evidenzia inoltre la possibilità di ulteriori miglioramenti futuri tramite reinforcement learning, lasciando intuire margini di evoluzione ancora più ampi.

A completare il quadro c’è Phi-4-reasoning-plus, una versione ulteriormente affinata con la stessa dimensione parametrica, ma capace di produrre tracce di ragionamento più lunghe ed efficaci, migliorando ulteriormente i risultati nei benchmark più impegnativi.

Applicazioni strategiche e limiti da considerare

Phi-4-reasoning è stato progettato per supportare applicazioni AI in ambienti con risorse limitate, come dispositivi con poca memoria, scenari in cui la latenza è critica o compiti che richiedono forte capacità di ragionamento. La sua struttura compatta lo rende adatto a contesti che non possono permettersi di gestire modelli enormi.

Tuttavia, ci sono alcune limitazioni da non trascurare. Il modello è ottimizzato principalmente per l’inglese, e il suo addestramento si è concentrato sul linguaggio Python con librerie comuni. Inoltre, la sua finestra di contesto è limitata a 32.000 token, un valore buono ma non eccezionale. Ulteriori dettagli tecnici, inclusi i limiti, sono consultabili direttamente nel whitepaper rilasciato da Microsoft.

Iscriviti alla newsletter

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.