Volumetric video in streaming: la nuova frontiera del 3D domestico

La volumetric video streaming si sta affermando come una delle innovazioni più promettenti nel campo dei media digitali. Un nuovo studio della ricerca informatica della Brown University segna un passaggio cruciale verso la possibilità di rendere questi contenuti 3D realmente fruibili su computer e smart TV. Si tratta di una tecnologia che consente di osservare una scena da qualsiasi punto di vista, superando i limiti del video tradizionale bidimensionale.

Al centro del progetto c’è l’idea di trasformare un ambiente tridimensionale dinamico in un formato compatibile con le infrastrutture già esistenti dello streaming online. Un risultato che potrebbe modificare radicalmente il modo in cui si producono e consumano contenuti audiovisivi.

Il video volumetrico e la sua evoluzione

Il video volumetrico nasce dall’esigenza di rappresentare la realtà in tre dimensioni, aggiungendo anche il fattore temporale. In questo modo, ogni scena diventa una sorta di ambiente esplorabile, dove lo spettatore può muoversi liberamente.

Il sistema si basa su array di telecamere sincronizzate che circondano la scena e registrano simultaneamente ogni angolazione. Successivamente, algoritmi ricostruiscono lo spazio in 3D, creando un’esperienza immersiva che permette di osservare eventi da prospettive impossibili per una singola camera tradizionale.

Secondo i ricercatori, guidati da Aashish Rai, questo approccio consente di trasformare il video in una vera e propria esperienza “navigabile”, definita anche come contenuto 4D.

PackUV e la sfida della compressione

Uno degli ostacoli principali alla diffusione del video volumetrico riguarda la gestione dei dati. Un semplice clip di 30 minuti può arrivare a occupare terabyte di memoria, rendendo complessa la trasmissione su reti standard.

Per affrontare questo problema, il team della Brown University ha sviluppato una nuova tecnica chiamata PackUV, progettata per comprimere e riorganizzare le informazioni 3D.

Il metodo si basa su una rappresentazione già nota nel settore, la 3D Gaussian splatting, che utilizza “blob” matematici per descrivere forma, colore e opacità degli oggetti nello spazio. PackUV introduce però un passaggio chiave: la trasformazione della scena tridimensionale in un formato bidimensionale strutturato, simile a una mappa del mondo proiettata su un piano.

Questo consente di ottenere file più leggeri e soprattutto compatibili con i codec video già utilizzati da piattaforme come YouTube e Netflix.

Problemi di continuità e gestione delle scene lunghe

Un’altra difficoltà riguarda la stabilità delle ricostruzioni 3D su sequenze estese. Nei sistemi precedenti, il tracciamento degli oggetti tendeva a fallire quando elementi della scena venivano temporaneamente nascosti o quando nuovi soggetti entravano improvvisamente nell’inquadratura.

Per risolvere il problema, i ricercatori hanno adottato un approccio basato sulla suddivisione del video in segmenti più piccoli. All’inizio di ogni segmento, il sistema ricalibra la scena, verificando eventuali movimenti o cambiamenti.

Questa strategia consente di mantenere la coerenza anche in video complessi fino a 30 minuti, un traguardo significativo rispetto ai limiti precedenti della tecnologia.

Dataset, test e ricostruzione della realtà

Per validare il sistema, il team ha costruito un dataset di dimensioni senza precedenti, utilizzando tra 50 e 90 telecamere sincronizzate. Le registrazioni includono attività molto diverse: dal basket al pickleball, fino a lavori manuali come cucina e falegnameria.

Le riprese sono state effettuate sia in ambienti controllati sia in contesti reali, con sistemi mobili di acquisizione.

Il progetto, che sarà presentato alla conferenza IEEE/CVF Conference on Computer Vision and Pattern Recognition, rappresenta uno dei più grandi sforzi mai realizzati per la costruzione di un sistema di video multi-vista ad alta precisione.

Applicazioni e scenari futuri

Le potenzialità del video volumetrico vanno oltre l’intrattenimento. Secondo i ricercatori, questa tecnologia potrebbe essere utilizzata per creare digital twin della realtà, utili in ambiti come produzione industriale, formazione e simulazione.

La possibilità di esplorare eventi sportivi, concerti o ambienti di lavoro da qualsiasi angolazione apre anche nuove prospettive per media, educazione e comunicazione interattiva.

Come sottolineato dai ricercatori, l’obiettivo è rendere questi contenuti non solo più realistici, ma anche accessibili attraverso le infrastrutture digitali già esistenti, riducendo così il divario tra ricerca avanzata e utilizzo quotidiano.

Fonte: Techxplore