Mirage dimostra come la video-IA può acquisire una memoria spaziale a lungo termine
Mirage presenta un modello innovativo di world video model che gestisce con maggiore coerenza la struttura spaziale generata anche durante lunghi movimenti della telecamera. Microsoft Research, insieme a diverse università, ha sviluppato un sistema che non passa attraverso la complessa elaborazione delle nuvole di punti 3D, accelerando quindi la generazione di video e riducendo considerevolmente il consumo di risorse computazionali.
Un cambio di prospettiva nei modelli 3D
Tradizionalmente, i sistemi come Voyager, WonderWorld o Spatia ricorrevano alla creazione e aggiornamento continue di una nuvola di punti 3D, aggiornata con informazioni di colore. Questo processo richiedeva ogni volta di renderizzare la nuvola in un'immagine bidimensionale, quindi di tornare a decodificare il contenuto in un vettore di feature interno. Il documento descrive il tutto come un "collo di bottiglia doppio" per le elevate richieste di calcolo e la perdita di dettagli durante la conversione tra pixel e struttura tridimensionale.
Memoria spaziale senza conversione in pixel
Mirage si distingue in questo perché non utilizza i pixel visibili, ma memorizza direttamente i tratti immagine all'interno di una struttura spaziale 3D chiamata memoria latente. Questi tratti, già utili al modello in fase diffusiva, vengono associati a una specifica posizione spaziale e inseriti in una banca dati. Il modello, quando richiesto di generare una nuova angolazione, proietta direttamente questa memoria alla telecamera bersaglio, evitando quindi di dover ricostruire la nuvola di punti e re-encoderizzarlo.
I vantaggi principali di questa architettura sono due: una significativa riduzione del consumo di memoria, poiché i dati vengono conservati in una forma compressa all'interno della risoluzione interna del modello, e l’eliminazione dello stadio di rendering e encoding ripetuti.
Inizializzazione e aggiornamento della memoria
Mirage genera i video in segmenti: parte inizializzando la memoria latente partendo dall'immagine di avvio. Per ogni segmento successivo, legge le informazioni pertinenti, genera i fotogrammi e aggiorna la memoria con i nuovi dati. Questa logica assicura una coerenza spaziale continua attraverso tutto il video.
Inoltre, Mirage evita di confondersi introducendo un filtro che esclude gli oggetti in movimento e il cielo, salvando solo geometrie stabili nella memoria a lungo termine. Sotto la capienza si utilizza un modello video aperto Alibaba Wan2.2, adattato grazie a un modulo aggiuntivo, senza l’esigenza di un training completo del modello. Il modello è quindi ulteriormente perfezionato con una tecnica efficiente, lo addestramento tramite adattatori LoRA.
Prestazioni e benchmark
Nel benchmark World Score, Mirage supera i competitor basati su rendering 3D di punti colorati, come Spatia, e i modelli generalisti di generazione video come Wan2.1 o CogVideoX. In particolare si distingue per la capacità di mantenere la struttura spaziale e la consistenza delle superfici su tutta l’estensione del video.
Test di ciclo chiuso
Nel set di dati RealEstate10K, Mirage si è posizionato al primo posto in due su tre metriche test nel ciclo chiuso, dove la telecamera torna al punto iniziale dopo aver effettuato un movimento esteso. Questo test è noto per essere particolarmente difficile perché accumula qualsiasi errore lungo il tragitto, mettendo quindi a dura prova la stabilità a lungo termine.
Efficienza e consumo di risorse
La differenza più evidente si manifesta nel contesto dell’efficienza. Mentre i sistemi a base colore hanno problemi di scalabilità lungo la lunghezza del video e richiedono sempre più memoria video, Mirage mantiene una spesa di risorse quasi costante per fotogramma dopo il primo blocco. Le misurazioni degli autori indicano un'accelerazione fino a dieci volte maggiore e un consumo di memoria fino a cinquanta volte inferiore rispetto ai sistemi rivali.
Limiti e futuri sviluppi
Nonostante la sua avanzata architettura, Mirage presenta una limitazione evidente: non riesce a conservare la memoria degli oggetti in movimento lungo i segmenti video a causa della volatilità geometrica. Gli oggetti in movimento vengono attivamente esclusi dal sistema di filtraggio. Ne consegue che le sequenze con movimento vivace traggono meno vantaggio rispetto alle sequenze di interni tranquilli. La memorizzazione a lungo termine di contenuti dinamici viene citata dagli autori come un obiettivo naturale per futuri sviluppi.
Piattaforme correlate e contesto di ricerca
I dettagli completi su Mirage sono disponibili sul sito ufficiale del progetto. Microsoft ha inoltre un repository dedicato su GitHub per sperimentare la sua tecnologia "Latent Spatial Memory".
I modelli di world video rientrano oggi tra i settori di ricerca più avanzati nella generazione di video. Mentre modelli come Veo producono singoli video coerenti ma isolati, i world models mirano a rappresentare scene in modo interattivo e coerente nel tempo. Google DeepMind ha presentato in precedenza Genie 3, un modello in grado di generare ambienti interattivi in tempo reale, mantenibilmente per diversi minuti. Alcuni modelli sperimentali sono già accessibili agli utenti paganti dal 2026. Google ha inoltre esibito Gemini Omni, un world model evolutivo che raccorda l'IA video a sistemi di elaborazione multimodale.