NVIDIA Isaac GR00T N1.7: Modello VLA aperto per robot umanoidi con ragionamento avanzato

Hugging Face Blog 17 aprile 2026

NVIDIA ha annunciato il rilascio di Isaac GR00T N1.7 (Early Access), un modello Vision-Language-Action (VLA) open-source con licenza commerciale specificamente progettato per robot umanoidi. Questo sviluppo rappresenta un passo significativo verso la creazione di intelligenze robotiche più autonome e capaci, fondandosi su una premessa semplice ma potente: i dati generati dagli esseri umani costituiscono la fonte più scalabile di intelligenza robotica. L'approccio innovativo di GR00T N1.7 promette di rivoluzionare il modo in cui i robot apprendono e interagiscono con il mondo fisico, offrendo una piattaforma robusta e flessibile per la ricerca e lo sviluppo nel campo della robotica umanoide.

Architettura e Funzionamento del Modello GR00T N1.7

Il cuore di Isaac GR00T N1.7 è un modello Vision-Language-Action da 3 miliardi di parametri, progettato per interpretare osservazioni visive e istruzioni in linguaggio naturale, traducendole in azioni robotizzate continue. Questa capacità di comprendere il mondo attraverso la visione e il linguaggio, e di agire di conseguenza, è fondamentale per i robot che operano in ambienti complessi e dinamici. Il modello si avvale di un'architettura denominata Action Cascade, un design a doppio sistema che separa il ragionamento di alto livello dal controllo motorio di basso livello. Questa suddivisione permette una maggiore modularità, robustezza e specializzazione, migliorando l'efficienza e la precisione delle operazioni robotiche.

Gli input che alimentano il modello GR00T N1.7 sono diversificati e comprendono:

Frame di immagini RGB (a qualsiasi risoluzione), che forniscono informazioni visive dettagliate sull'ambiente.
Istruzioni in linguaggio naturale, consentendo agli operatori di impartire compiti complessi in modo intuitivo.
Stato propriocettivo del robot (posizioni delle articolazioni, velocità, pose dell'end-effector), essenziale per la consapevolezza del proprio corpo e il controllo preciso del movimento.

In risposta a questi input, il modello genera output sotto forma di vettori di azione a valore continuo, mappati ai gradi di libertà del robot. Questo permette una gamma fluida e precisa di movimenti, essenziale per compiti di manipolazione e locomozione.

Validazione su Piattaforme Robotiche

GR00T N1.7 è stato sottoposto a rigorose fasi di validazione, dimostrando le sue capacità in una varietà di scenari complessi. Il modello è stato testato con successo su diverse piattaforme robotiche, tra cui il robot umanoide Unitree G1, il manipolatore bimanuale YAM e l'AGIBot Genie 1. Le attività di validazione hanno coperto un ampio spettro di abilità, tra cui:

Loco-manipolazione, che combina il movimento del robot con compiti di manipolazione.
Manipolazione da tavolo, che richiede precisione e coordinazione per interagire con oggetti su una superficie.
Compiti bimanuali destri, che sfruttano entrambe le mani del robot per operazioni complesse.

Questi test su diverse piattaforme e tipi di compito confermano la versatilità e l'efficacia di GR00T N1.7 in scenari applicativi reali.

EgoScale: Il Ruolo Cruciale dei Dati Umani Egocentrici

La ricerca centrale che ha guidato lo sviluppo di GR00T N1.7 è il progetto EgoScale, una fase di pre-addestramento basata su un'enorme quantità di dati video egocentrici umani. Il dataset di EgoScale comprende ben 20.854 ore di video egocentrici umani, che coprono oltre 20 categorie di compiti. Queste categorie spaziano da settori come la produzione e il commercio al dettaglio, alla sanità e agli ambienti domestici, offrendo una visione ricca e diversificata delle interazioni umane con il mondo. Questo approccio rappresenta un notevole passo avanti rispetto alle poche migliaia di ore di dati di teleoperazione robotica utilizzate per addestrare la versione precedente, N1.6, evidenziando l'efficacia dei dati umani su larga scala.

L'intuizione alla base di EgoScale è profonda: esseri umani e robot condividono incarnazioni simili. Entrambi possiedono due mani, una prospettiva in prima persona e un mondo ricco di oggetti da manipolare. Addestrare il modello su video umani sensorizzati (utilizzando ego-camere, telecamere da polso e tracciamento delle mani) fornisce al modello ricchi priori di manipolazione. Questo significa che il modello acquisisce una comprensione intrinseca di come manipolare gli oggetti e interagire con l'ambiente, senza la necessità che ogni singolo comportamento venga dimostrato su un robot fisico. In questo modo, il pre-addestramento supera i limiti di scalabilità imposti dalla teleoperazione, aprendo nuove frontiere per l'apprendimento robotico.

La Scoperta di una Legge di Scaling per la Destrezza Robotica

Un risultato chiave emerso da questo lavoro è la scoperta della prima legge di scaling per la destrezza robotica. Questa legge rivela che una maggiore quantità di dati egocentrici umani produce miglioramenti prevedibili e consistenti nella capacità di manipolazione destre. Ad esempio, passare da 1.000 a 20.000 ore di dati ha più che raddoppiato il tasso medio di completamento dei compiti. Questa legge di scaling si traduce direttamente in un significativo aumento delle capacità di manipolazione destre, consentendo a mani robotiche con 22 gradi di libertà di eseguire compiti ricchi di contatto che i modelli robotici generalisti hanno storicamente faticato a realizzare. Questa scoperta è fondamentale per lo sviluppo di robot più agili e abili, capaci di affrontare sfide complesse nel mondo reale.

Installazione, Licenze e Supporto

Per gli sviluppatori e i ricercatori interessati a esplorare le capacità di GR00T N1.7, l'installazione e l'avvio di un policy server contro la propria incarnazione robotica sono processi ben documentati. Le prestazioni di inferenza, ad esempio, con 4 passaggi di denoising e una singola visuale della telecamera, sono dettagliate e accessibili per l'analisi. GR00T N1.7 è distribuito con licenza commerciale ed è supportato su un'ampia gamma di piattaforme NVIDIA all'avanguardia, tra cui NVIDIA Ampere, Hopper, Lovelace, Blackwell e le piattaforme Jetson. Questa vasta compatibilità assicura che un'ampia comunità di sviluppatori possa beneficiare delle innovazioni introdotte da GR00T N1.7.

Personalizzazione e Aggiornamento

GR00T N1.7 supporta il fine-tuning su incarnazioni personalizzate utilizzando il formato di dataset LeRobot, offrendo agli utenti la flessibilità di adattare il modello alle loro specifiche esigenze. Le incarnazioni pre-registrate includono:

UNITREE_G1
LIBERO_PANDA
OXE_WIDOWX

È inoltre possibile registrare le proprie incarnazioni personalizzate. L'aggiornamento dalla versione N1.6 a N1.7 è un processo semplice di "drop-in swap": è sufficiente puntare il parametro --model-path a nvidia/GR00T-N1.7, e le configurazioni e i workflow esistenti per le incarnazioni verranno mantenuti. Le principali differenze tra le due versioni risiedono nel backbone VLM aggiornato (Cosmos-Reason2-2B) e nel pre-addestramento EgoScale, che migliora la destrezza e la generalizzazione "out-of-the-box" prima di qualsiasi fine-tuning.

NVIDIA invita la comunità di sviluppatori e ricercatori a sperimentare con Isaac GR00T N1.7. Se creerete qualcosa con questo modello, NVIDIA sarebbe entusiasta di conoscere le vostre innovazioni e i vostri progressi. Questo spirito di collaborazione è essenziale per accelerare lo sviluppo di robot umanoidi sempre più intelligenti e capaci, portando avanti la frontiera della robotica e dell'intelligenza artificiale.

Leggi l'articolo originale →

← Torna alle news