Scatta la competizione diretta tra le intelligenze artificiali di OpenAI e Meta e quella nuova di NVIDIA: NVLM 1.0. Si tratta di un modello LLM open source che, grazie a prestazioni eccezionali in vari compiti linguistici e visivi, potrebbe rivoluzionare il panorama dell’AI, favorendo lo sviluppo di nuove applicazioni e non solo.
La nuova AI di NVIDIA open source
Come precisa il comunicato del colosso tech, NVLM 1.0 rappresenta una “famiglia di modelli linguistici multimodali di frontiera“, capace di ottenere risultati all’avanguardia in compiti legati al linguaggio e alla visione.
Punto forte di NVLM 1.0 è infatti la sua capacità di integrare tecnologie avanzate come il riconoscimento ottico dei caratteri (OCR) e il ragionamento logico, che lo rende particolarmente adatto a una vasta gamma di applicazioni, dall’analisi delle immagini alla generazione di testi complessi.
Altro elemento distintivo di NVLM 1.0 è il fatto di essere open source. Questo significa che il codice, le istruzioni e i parametri di addestramento del modello sono disponibili gratuitamente sulla piattaforma Megatron-Core. La scelta di NVIDIA di adottare un approccio aperto potrebbe avere un impatto significativo nel settore, agevolando lo sviluppo da parte di piccole organizzazioni e ricercatori indipendenti.
Per saperne di più: Intelligenza artificiale: cos’è e come funziona, tutto sulla AI
L’AI che comprende anche l’umorismo dei meme
Il team di NVIDIA ha sviluppato un’architettura ottimizzata per migliorare l’addestramento e il ragionamento del modello, e questo utilizzando dati di pre-addestramento selezionati “meticolosamente”, perché “la qualità dei dataset e la varietà dei compiti sono più importanti delle dimensioni, anche durante la fase di pre-addestramento“.
Questo approccio consente a NVLM-D-72B (la versione più potente della gamma, in grado di gestire fino a 72 miliardi di parametri) di affrontare compiti complessi e anche particolari, come analizzare tabelle grafiche, generare descrizioni dettagliate di immagini e addirittura comprendere l’umorismo di un meme.
Il modello eccelle anche nella risoluzione di problemi matematici, dimostrando una versatilità senza precedenti nel campo dell’AI multimodale.