Benvenuti a NVIDIA Cosmos 3: Il Primo Omni-model per l'intelligenza Artificiale nel Contesto Fisico
NVIDIA ha annunciato oggi il lancio di Cosmos 3, disponibile su Hugging Face. Questo modello rappresenta un passo avanti significativo nei modelli fondamentali di mondo (WFMs) per l’intelligenza artificiale fisica: un modello unico e completo che combina generazione del mondo, ragionamento fisico e azione generata in un'unica architettura. Non c'è più bisogno di utilizzare diversi modelli per svolgere diverse funzioni, Cosmos 3 ha tutto in un'unica piattaforma.
Cosmos 3 per un mondo fisico più intelligente
Sia che si stia costruendo un sistema robotico, un veicolo autonomo o uno spazio intelligente, Cosmos 3 fornisce la base per simulare e comprendere il mondo fisico. Rappresenta una sintesi di pixel, token, moto, causalità, fisica e azione. Se ad esempio si addestra un robot a piegare il bucato, si sviluppa una simulazione per guida autonoma o si generano dati sintetici per situazioni di sicurezza in un magazzino, Cosmos 3 è il modello progettato appositamente per questi casi d'uso.
Una struttura innovativa: Mixture-of-Transformers
Il cambiamento più importante in Cosmos 3 rispetto alle versioni precedenti è l'adozione dell'architettura Mixture-of-Transformers (MoT). Prima, gli sviluppatori dovevano affrontare modelli separati come World Generation (Cosmos Predict), Controll Generation (Cosmos Transfer), Scene Understanding (Cosmos Reason) e Policy Generation (Cosmos Policy). Con Cosmos 3, tutta questa complessità si semplifica in un unico modello in grado di processare molteplici modi in una singola operazione forward.
Modelli precedenti
- Cosmos Predict
- Cosmos Transfer
- Cosmos Reason
- Cosmos Policy
Applicazioni fisiche e generative
Cosmos 3 è progettato per sviluppare sistemi di intelligenza artificiale in grado di comprendere il mondo reale. Non si tratta solo di immagini e token, ma anche di movimento, causalità, fisica e azione. Il modello supporta video generati per casi d'uso robotici, per scenari di guida rari e per dati di sicurezza in ambienti come i magazzini.
Esempi di output di Cosmos 3 includono:
- Video per l'azione di "prendere e posizionare" in ambienti robotici
- Video per scenari di guida estremi
- Immagini generate in video per dati di sicurezza in magazzino
- Ragionamento catena del pensiero in applicazioni di guida autonoma
Lavora con dati multimodali
Cosmos 3 opera utilizzando una struttura MoT che elabora testo, immagini, video, audio e azione in un'unica architettura. Ogni tipo di contenuto è inizialmente codificato da un codificatore mirato, quindi mappato in uno spazio di rappresentazione condiviso.
Componenti chiave
- ViT per l'analisi visiva
- VAE per la generazione visiva/audio
- Vettori specifici per le azioni
Sottostruttura modale
L'input viene suddiviso in due sottosequenze:
- Una parte autoregressiva (AR) che gestisce il ragionamento e la comprensione prevedendo il prossimo token
- Un'alternativa diffusiva (DM) che manipola la generazione attraverso iterazioni di denoising
I token AR e DM utilizzano set di parametri separati nei singoli strati Transformer, ma interagiscono tramite un'attenzione congiunta, il che permette al modello di passare fluidamente da VLM a generatore video a modello dinamico a policy robotica senza alterazioni architettoniche.
Dimensioni dei modelli
- Cosmos 3 Nano – adatto per task leggeri e dispositivi edge
- Cosmos 3 – ottimizzato per applicazioni ad alta fedeltà
Modalità di input e generazione
Cosmos 3 gestisce varie funzioni tramite un modello unificato:
Gli utenti consigliati per la generazione video dovrebbero fornire descrizioni narrative dettagliate, ad esempio:
Il video inizia con una vista dall'interno di un veicolo che guida su una strada a corsie multiple all'aperto sotto un cielo terso. La strada è circondata da alberi verdi su entrambi i lati, creando un ambiente tranquillo. Si vedono diversi veicoli, tra cui un camion bianco e varie auto, avanzare in modo costante. Il percorso ha svariati raccordi separati da barriere in cemento, ed è illuminato dal sole che fa sì che si possa dedurre una giornata limpida. Man mano che il video avanza, improvvisamente compaiono tanti rifiuti sull'asfalto davanti, e il veicolo principale non ha il tempo per evitarli, dovrà passarci sopra proseguiendo, con un evidente scossone al passare dei frammenti.
Al contrario, per la generazione di azioni, si consiglia un linguaggio conciso con riferimenti spaziali, ad esempio:
Posiziona la pentola a sinistra dell'oggetto viola. Il video è registrato da una prospettiva in prima persona che osserva la scena.
Integrazione con Hugging Face
Cosmos 3 viene distribuito con il modulo Hugging Face Diffusers, permettendo l'uso immediato di pipeline di generazione con poche righe di codice. Si può eseguire il modello attraverso la nota piattaforma DiffusionPipeline utilizzando Cosmos3OmniPipeline per semplificare l'implementazione e la compatibilità con il proprio stack esistente.
Esempio di utilizzo
Ecco un esempio di generazione di una singola immagine tramite il modello Cosmos 3 Nano:
- Inserire la descrizione desiderata
- Eseguire il codice tramite pipeline
- Ricevere un'immagine conforme al prompt
L'archivio include esempi di generazione testo-immagine, testo-videoclip, immagine-videoclip, tra gli altri. Trova informazioni, utilizzo API e dettaglio nel diffusers documentation dedicato.
Dati sintetici e addestramento secondario
In concomitanza con il lancio di Cosmos 3, NVIDIA pubblica una serie di set di dati generati sinteticamente per sostenere la community nell’allenamento e nella valutazione di modelli fondamentali per intelligenza fisica. Questi dataset, frutto della collaborazione tra diversi team NVIDIA, si trovano su Hugging Face e supportano lo sviluppo su larga scala.
Set di dati generati sinteticamente
- Rappresentazioni di ambienti diversificati