Microsoft Phi-3-Vision, l'AI multimodale perfetta per gli smartphone

Appartenente alla “famiglia” dei Phi-3, Vision è un’AI multimodale che, date le sue caratteristiche, potrebbe risultare molto conveniente anche per gli stessi smartphone. Presentata durante il Build 2024, Phi-3-Vision è progettata per rispondere a domande sia su contenuti testuali che visivi. E non solo. Vediamo cosa sa fare.

Microsoft presenta l’AI multimodale Phi-3-Vision

Si è perso il filo con tutte le novità del Build 2024. E manco a farlo apposta, Microsoft presenta un’altra novità: un nuovo membro della famiglia di modelli di linguaggio basati sull’intelligenza artificiale. Phi-3-Vision.

Questo innovativo modello si distingue dall’ultimo Phi rilasciato per la sua natura multimodale, il che significa che può elaborare non solo input testuali, ma anche immagini. Un’opzione inedita rispetto a tutti gli altri modelli, nonché un notevole passo avanti rispetto ai precedenti modelli della serie Phi-3, focalizzati esclusivamente sull’elaborazione del testo.

Attualmente, l’AI è disponibile in versione preliminare, e non è stata ancora annunciata una data di rilascio ufficiale. Gli altri modelli della famiglia Phi-3 (Mini, Small e Medium) sono già accessibili tramite il servizio Azure AI di Microsoft.

Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI

Come funziona Phi-3-Vision sugli smartphone

Phi-3-Vision è progettato per rispondere a domande sia su contenuti testuali che visivi. Forte dei suoi 4.2 miliardi di parametri, si colloca a metà strada nella gamma dei modelli Phi-3. Di seguito il rapporto tra gli altri membri della famiglia:

Phi-3 Mini: 3.8 miliardi di parametri.
Phi-3 Small: 7 miliardi di parametri.
Phi-3 Medium: 14 miliardi di parametri.

Dati i suoi parametri, Phi-3-Vision non richiede pertanto una grossa potenza di calcolo, rendendolo particolarmente utile per dispositivi con potenza di elaborazione limitata, come smartphone e laptop.

Microsoft afferma che Phi-3 eccelle nel “ragionamento visivo generale” e nella comprensione di grafici, tabelle e diagrammi. Questa capacità lo rende uno strumento potente per una vasta gamma di applicazioni, dalla ricerca scientifica alla gestione aziendale. Ad esempio, può analizzare un grafico fornito e rispondere a domande relative a esso o esaminare immagini per risolvere quesiti complessi.

Azure AI Studio è ora disponibile

Oltre alla presentazione di Phi-3-vision, Microsoft ha annunciato la disponibilità generale di Azure AI Studio, una piattaforma avanzata per lo sviluppo di intelligenza artificiale generativa.

Progettato per facilitare la creazione di iterazioni di Copilot, essi possono gestire una varietà di attività, tra cui:

la generazione di contenuti,
l’analisi dei dati,
la gestione di progetti,
l’automazione di task ripetitivi.

Azure AI Studio si rivolge sia a sviluppatori esperti che a utenti meno esperti. Per i programmatori Azure offre un robusto supporto per la programmazione “code-first“, consentendo un controllo dettagliato e personalizzato dello sviluppo dell’AI.

Per gli utenti con meno competenze tecniche la piattaforma offre un’interfaccia utente intuitiva che rende più accessibile la creazione e la gestione di modelli AI.

Microsoft presenta Phi-3-Vision, l’AI multimodale perfetta per gli smartphone

Microsoft presenta l’AI multimodale Phi-3-Vision

Come funziona Phi-3-Vision sugli smartphone

Azure AI Studio è ora disponibile

Iscriviti alla newsletter

Microsoft presenta l’AI multimodale Phi-3-Vision

Come funziona Phi-3-Vision sugli smartphone

Azure AI Studio è ora disponibile

Iscriviti alla newsletter

Articoli correlati