Benvenuti a NVIDIA Cosmos 3: Il Primo Omni-model per l'intelligenza Artificiale nel Contesto Fisico

Hugging Face Blog 1 giugno 2026

NVIDIA ha annunciato oggi il lancio di Cosmos 3, disponibile su Hugging Face. Questo modello rappresenta un passo avanti significativo nei modelli fondamentali di mondo (WFMs) per l’intelligenza artificiale fisica: un modello unico e completo che combina generazione del mondo, ragionamento fisico e azione generata in un'unica architettura. Non c'è più bisogno di utilizzare diversi modelli per svolgere diverse funzioni, Cosmos 3 ha tutto in un'unica piattaforma.

Cosmos 3 per un mondo fisico più intelligente

Sia che si stia costruendo un sistema robotico, un veicolo autonomo o uno spazio intelligente, Cosmos 3 fornisce la base per simulare e comprendere il mondo fisico. Rappresenta una sintesi di pixel, token, moto, causalità, fisica e azione. Se ad esempio si addestra un robot a piegare il bucato, si sviluppa una simulazione per guida autonoma o si generano dati sintetici per situazioni di sicurezza in un magazzino, Cosmos 3 è il modello progettato appositamente per questi casi d'uso.

Una struttura innovativa: Mixture-of-Transformers

Il cambiamento più importante in Cosmos 3 rispetto alle versioni precedenti è l'adozione dell'architettura Mixture-of-Transformers (MoT). Prima, gli sviluppatori dovevano affrontare modelli separati come World Generation (Cosmos Predict), Controll Generation (Cosmos Transfer), Scene Understanding (Cosmos Reason) e Policy Generation (Cosmos Policy). Con Cosmos 3, tutta questa complessità si semplifica in un unico modello in grado di processare molteplici modi in una singola operazione forward.

Modelli precedenti

Cosmos Predict

Cosmos Transfer

Cosmos Reason

Cosmos Policy

Applicazioni fisiche e generative

Cosmos 3 è progettato per sviluppare sistemi di intelligenza artificiale in grado di comprendere il mondo reale. Non si tratta solo di immagini e token, ma anche di movimento, causalità, fisica e azione. Il modello supporta video generati per casi d'uso robotici, per scenari di guida rari e per dati di sicurezza in ambienti come i magazzini.

Esempi di output di Cosmos 3 includono:

Video per l'azione di "prendere e posizionare" in ambienti robotici

Video per scenari di guida estremi

Immagini generate in video per dati di sicurezza in magazzino

Ragionamento catena del pensiero in applicazioni di guida autonoma

Lavora con dati multimodali

Cosmos 3 opera utilizzando una struttura MoT che elabora testo, immagini, video, audio e azione in un'unica architettura. Ogni tipo di contenuto è inizialmente codificato da un codificatore mirato, quindi mappato in uno spazio di rappresentazione condiviso.

Componenti chiave

ViT per l'analisi visiva

VAE per la generazione visiva/audio

Vettori specifici per le azioni

Sottostruttura modale

L'input viene suddiviso in due sottosequenze:

Una parte autoregressiva (AR) che gestisce il ragionamento e la comprensione prevedendo il prossimo token

Un'alternativa diffusiva (DM) che manipola la generazione attraverso iterazioni di denoising

I token AR e DM utilizzano set di parametri separati nei singoli strati Transformer, ma interagiscono tramite un'attenzione congiunta, il che permette al modello di passare fluidamente da VLM a generatore video a modello dinamico a policy robotica senza alterazioni architettoniche.

Dimensioni dei modelli

Cosmos 3 Nano – adatto per task leggeri e dispositivi edge

Cosmos 3 – ottimizzato per applicazioni ad alta fedeltà

Modalità di input e generazione

Cosmos 3 gestisce varie funzioni tramite un modello unificato:

Gli utenti consigliati per la generazione video dovrebbero fornire descrizioni narrative dettagliate, ad esempio:

Il video inizia con una vista dall'interno di un veicolo che guida su una strada a corsie multiple all'aperto sotto un cielo terso. La strada è circondata da alberi verdi su entrambi i lati, creando un ambiente tranquillo. Si vedono diversi veicoli, tra cui un camion bianco e varie auto, avanzare in modo costante. Il percorso ha svariati raccordi separati da barriere in cemento, ed è illuminato dal sole che fa sì che si possa dedurre una giornata limpida. Man mano che il video avanza, improvvisamente compaiono tanti rifiuti sull'asfalto davanti, e il veicolo principale non ha il tempo per evitarli, dovrà passarci sopra proseguiendo, con un evidente scossone al passare dei frammenti.

Al contrario, per la generazione di azioni, si consiglia un linguaggio conciso con riferimenti spaziali, ad esempio:

Posiziona la pentola a sinistra dell'oggetto viola. Il video è registrato da una prospettiva in prima persona che osserva la scena.

Integrazione con Hugging Face

Cosmos 3 viene distribuito con il modulo Hugging Face Diffusers, permettendo l'uso immediato di pipeline di generazione con poche righe di codice. Si può eseguire il modello attraverso la nota piattaforma DiffusionPipeline utilizzando Cosmos3OmniPipeline per semplificare l'implementazione e la compatibilità con il proprio stack esistente.

Esempio di utilizzo

Ecco un esempio di generazione di una singola immagine tramite il modello Cosmos 3 Nano:

Inserire la descrizione desiderata

Eseguire il codice tramite pipeline

Ricevere un'immagine conforme al prompt

L'archivio include esempi di generazione testo-immagine, testo-videoclip, immagine-videoclip, tra gli altri. Trova informazioni, utilizzo API e dettaglio nel diffusers documentation dedicato.

Dati sintetici e addestramento secondario

In concomitanza con il lancio di Cosmos 3, NVIDIA pubblica una serie di set di dati generati sinteticamente per sostenere la community nell’allenamento e nella valutazione di modelli fondamentali per intelligenza fisica. Questi dataset, frutto della collaborazione tra diversi team NVIDIA, si trovano su Hugging Face e supportano lo sviluppo su larga scala.

Set di dati generati sinteticamente

Rappresentazioni di ambienti diversificati

Leggi l'articolo originale →

← Torna alle news