NVIDIA presenta Nemotron 3 Nano Omni: intelligenza multimodale a lungo contesto per agenti
Presentazione di NVIDIA Nemotron 3 Nano Omni: intelligenza multimodale a lungo contesto per documenti, audio e agenti video
NVIDIA ha recentemente introdotto Nemotron 3 Nano Omni, un'evoluzione significativa nel campo dei modelli di intelligenza artificiale multimodale. Basandosi sulle solide fondamenta di Nemotron Nano V2 VL, questa nuova iterazione non solo offre miglioramenti sostanziali nelle capacità visive, ma introduce anche funzionalità audio e video+audio completamente nuove. Nemotron 3 Nano Omni si posiziona come leader nel suo segmento, superando un altro modello omni a pesi aperti, Qwen3-Omni, in numerosi domini.
Uno dei punti di forza più impressionanti di Nemotron 3 Nano Omni risiede nella sua efficienza. Rispetto ad altri modelli omni aperti con lo stesso livello di interattività, il nuovo modello di NVIDIA garantisce un'efficienza di sistema 7.4 volte superiore per casi d'uso multi-documento e un'efficienza di sistema 9.2 volte superiore per casi d'uso video. Questo si traduce in un throughput di sistema complessivo significativamente maggiore per utente, mantenendo una soglia di interattività fissa.
Classi di carico di lavoro supportate da Nemotron 3 Nano Omni
A un livello generale, Nemotron 3 Nano Omni è stato progettato per affrontare cinque classi principali di carichi di lavoro, ciascuna con requisiti unici e complessi:
-
Document Intelligence
Questo modello va ben oltre le capacità tradizionali di OCR (riconoscimento ottico dei caratteri). È posizionato per l'analisi di documenti lunghi, complessi e di alto valore, dove la comprensione dipende da fattori quali layout, tabelle, figure, formule, struttura delle sezioni e riferimenti tra pagine. Si pensi a contratti, documenti tecnici, rapporti, manuali, moduli multipagina o pacchetti di conformità. Il modello è in grado di gestire documenti di oltre 100 pagine, offrendo una comprensione approfondita del loro contenuto strutturale e semantico.
-
Audio Intelligence
Nemotron 3 Nano Omni include robuste capacità di comprensione vocale che consentono una trascrizione di alta qualità in diverse condizioni audio. È in grado di gestire audio di lunga durata con vari oratori, accenti e rumori di fondo. Queste capacità possono essere integrate in flussi di lavoro più ampi, permettendo al contenuto parlato di essere trascritto, analizzato e combinato con altre modalità per compiti come la riassunzione, la risposta a domande e il ragionamento cross-modale.
-
Ragionamento misto audio e visivo
Molti flussi di lavoro aziendali e di sviluppatori dipendono da prove miste audio e visive: registrazioni dello schermo con narrazione, video di formazione, riunioni con diapositive, tutorial, demo di prodotti, acquisizioni di supporto clienti e archivi video di lunga durata. Nemotron 3 Nano Omni è stato costruito per ragionare su questi input in modo congiunto, comprendendo le interrelazioni tra ciò che si vede e ciò che si sente.
-
Uso del computer come agente
Il modello Nemotron 3 Nano Omni è specificamente addestrato per l'uso del computer come agente, consentendogli di assistere in compiti all'interno di ambienti di interfaccia grafica utente (GUI). Le sue capacità includono l'interpretazione di screenshot, il monitoraggio dello stato dell'interfaccia utente, la fondazione del proprio ragionamento su elementi visivi sullo schermo e l'assistenza nella selezione di azioni o nell'automazione dei flussi di lavoro.
-
Compiti ad alta intensità di ragionamento
Il modello è progettato per andare oltre la semplice percezione. Eccelle in compiti ad alta intensità di ragionamento che richiedono la sintesi di informazioni attraverso finestre di contesto lunghe, molteplici modalità e prove strutturate o semi-strutturate. Può eseguire ragionamenti multi-step, effettuare calcoli e connettere segnali da testo, immagini, tabelle e altri input per arrivare a risposte coerenti e ben supportate.
Architettura del modello innovativa
Nemotron 3 Nano Omni impiega un design unificato encoder-proiettore-decoder. La spina dorsale linguistica è
La spina dorsale del modello di Nemotron 3 Nano Omni intercala tre componenti chiave per ottimizzare le prestazioni e l'efficienza:
- 23 livelli di spazio di stato selettivi Mamba per un'elaborazione efficiente del contesto lungo.
- 23 livelli MoE (Mixture-of-Experts) con 128 esperti, routing top-6 e un esperto condiviso per una capacità condizionale flessibile.
- 6 livelli di attenzione a query raggruppate per preservare una forte interazione globale e un'elevata espressività.
Questo design combina modelli di spazio di stato, attenzione e MoE in un'architettura unificata che mantiene elevate prestazioni di ragionamento pur rimanendo pratica per contesti lunghi e multimodali.
Miglioramenti nella gestione visiva
Per quanto riguarda l'aspetto visivo, Nemotron 3 Nano Omni sostituisce la strategia di "tiling" utilizzata nel modello v2 con un'elaborazione a risoluzione dinamica con rapporto d'aspetto nativo. Ogni immagine può essere rappresentata utilizzando un numero variabile di patch 16x16, con un minimo di 1.024 e un massimo di 13.312 patch visive per immagine. Per le immagini quadrate, questo equivale rispettivamente a 512x512 e 1840x1840 pixel.
Questa flessibilità è fondamentale per la gestione di input visivi complessi e ad alta risoluzione, come documenti con molto testo OCR, tabelle finanziarie, diapositive, figure di ricerca, screenshot e layout di GUI, specialmente quando è necessario comprendere sia i dettagli più fini che la struttura complessiva.
Elaborazione video avanzata
Per i video, Nemotron 3 Nano Omni utilizza un percorso di embedding dedicato basato su Conv3D tubelet. Invece di incorporare ogni frame in modo indipendente, ogni coppia di frame consecutivi viene fusa in un singolo "tubelet" prima del Vision Transformer (ViT). Questo dimezza il numero di token visivi che il modello linguistico deve elaborare. Ciò consente di raddoppiare il numero di frame con lo stesso budget di token, oppure di dimezzare il numero di token con lo stesso numero di frame.
Una caratteristica importante, abilitata durante l'inferenza, è l'EVS (Enabled Video Sampling), che elimina i token video ridondanti dopo l'encoder visivo. Questo riduce la latenza e migliora il throughput mantenendo l'accuratezza. Il primo frame del video viene mantenuto interamente, quindi per ogni frame successivo, EVS mantiene i token "dinamici" dove il video sta cambiando e elimina quelli "statici" dove nulla è cambiato rispetto al frame precedente. Questa tecnica si combina con Conv3D per consentire una compressione superiore: Conv3D fonde i token di coppie di frame in uno, e poi EVS elimina le informazioni statiche ridondanti.
Capacità di elaborazione audio
Il lato audio è alimentato da Parakeet-TDT-0.6B-v2, collegato alla spina dorsale tramite il suo proiettore MLP a 2 livelli. L'audio viene campionato a 16 kHz e il modello è addestrato con input fino a 1.200 secondi (20 minuti), mentre la lunghezza massima del contesto del LLM supporta oltre 5 ore.
Questo rappresenta un cambiamento rispetto alle pipeline VLM tradizionali, consentendo l'elaborazione audio nativa all'interno di una sequenza multimodale condivisa, permettendo ai token audio, visivi e testuali di essere modellati congiuntamente. Ciò è cruciale per scenari come registrazioni dello schermo narrate, Q&A video in cui il parlato altera il significato visivo, contenuti didattici o di riunione di lunga durata e compiti che richiedono un ragionamento multimodale temporalmente basato.
Spazio di embedding condiviso
Ogni encoder è collegato al LLM con un proiettore MLP leggero a 2 livelli che mappa le caratteristiche dell'encoder nello spazio di embedding condiviso. Una volta proiettati, i token visivi, audio e testuali vengono interleaved e processati congiuntamente. Questo design mantiene il sistema complessivamente modulare, pur consentendo un autentico ragionamento cross-modale all'interno della spina dorsale stessa.
Infrastruttura e metodologia di addestramento
Le fasi di addestramento SFT (Supervised Fine-Tuning) sono state eseguite su NVIDIA H100, scalando da 32 a 128 nodi a seconda della fase. Lo stack di addestramento utilizza Megatron-LM, Transformer Engine e Megatron Energon, con parallelismo tensoriale, parallelismo esperto, parallelismo di sequenza, parallelismo di contesto per le fasi di contesto lungo, impacchettamento di sequenza online e ricomputazione selettiva dell'attivazione.
Il rinforzo post-SFT utilizza NeMo-RL e NeMo Gym con un backend Megatron. L'infrastruttura RL ha impiegato una configurazione distribuita basata su Ray attraverso cluster B200 e H100, oltre a una deduplicazione multimodale, in modo che le ripetizioni non moltiplichino la memoria di immagini, video e audio.
NVIDIA ha inoltre annunciato l'intenzione di rendere open-source parti sostanziali del proprio codice di addestramento, promuovendo la trasparenza e la collaborazione nella comunità AI.
Addestramento multimodale e set di dati avanzati
Nemotron 3 Nano Omni introduce l'addestramento testuale e omni multi-ambiente. La fase di addestramento RL testuale si svolge in diversi ambienti in Nemo-Gym, che valuta la capacità del modello di eseguire sequenze di azioni come chiamate a strumenti, scrittura di codice e pianificazione multi-parte che soddisfano criteri verificabili.
L'addestramento Omni RL allena il modello a ragionare su immagini, video, audio e testo all'interno di un framework unificato, coprendo compiti da scenari mono-modalità a quelli completamente multimodali. Una suite di verificatori diversificata valuta gli output attraverso formati come scelta multipla, matematica, grounding GUI e ASR, includendo intenzionalmente casi senza risposta per insegnare al modello ad astenersi quando l'evidenza è insufficiente piuttosto che allucinare.
Nemotron 3 Nano Omni è addestrato su un set di dati migliorato che enfatizza il ragionamento di alta qualità attraverso più modalità. NVIDIA ha ampliato significativamente la copertura dei compiti e introdotto dati sintetici per scenari di ragionamento complessi dove i set di dati pubblici sono limitati. Per supportare questo, sono state costruite pipeline a più fasi, specifiche per i compiti, per la generazione scalabile di dati sintetici. Come esempio, sono stati generati circa 11.4 milioni di coppie QA sintetiche (~45 miliardi di token) da un ampio corpus di PDF reali utilizzando NeMo Data Designer, un set di dati fondamentale per l'addestramento del modello.