Gemini Robotics-ER 1.6: Potenziare i compiti robotici reali attraverso il ragionamento incarnato avanzato
Affinché i robot siano veramente utili nella nostra vita quotidiana e nelle industrie, devono fare di più che seguire semplici istruzioni; devono ragionare sul mondo fisico. Dalla navigazione in una struttura complessa all'interpretazione dell'ago su un manometro, il "ragionamento incarnato" di un robot è ciò che gli consente di colmare il divario tra intelligenza digitale e azione fisica.
Oggi, stiamo introducendo Gemini Robotics-ER 1.6, un aggiornamento significativo al nostro modello "ragionamento-prima" che permette ai robot di comprendere i loro ambienti con una precisione senza precedenti. Migliorando il ragionamento spaziale e la comprensione multi-vista, stiamo portando un nuovo livello di autonomia alla prossima generazione di agenti fisici.
Il ragionamento incarnato per robot autonomi
Per affrontare le sfide del mondo reale, i robot necessitano di capacità cognitive che vanno oltre la semplice esecuzione di comandi. Il concetto di "ragionamento incarnato" è fondamentale in questo contesto. Si riferisce alla capacità di un robot di interpretare e comprendere il proprio ambiente fisico, di pianificare azioni basate su questa comprensione e di rilevare il successo o il fallimento delle proprie operazioni. Questo ponte tra il digitale e il fisico è ciò che distingue un robot veramente autonomo da una macchina che si limita a seguire istruzioni pre-programmate. È l'intelligenza che permette a un robot di navigare in un magazzino affollato, di leggere un display di controllo in una fabbrica o di assemblare componenti con la stessa destrezza di un operatore umano.
Gemini Robotics-ER 1.6: un balzo in avanti nelle capacità robotiche
Il modello Gemini Robotics-ER 1.6 si specializza in capacità di ragionamento critiche per la robotica, inclusa la comprensione visiva e spaziale, la pianificazione dei compiti e il rilevamento del successo. Agisce come il modello di ragionamento di alto livello per un robot, capace di eseguire compiti chiamando nativamente strumenti come Google Search per trovare informazioni, modelli di visione-linguaggio-azione (VLA) o qualsiasi altra funzione di terze parti definita dall'utente.
Gemini Robotics-ER 1.6 mostra miglioramenti significativi rispetto a Gemini Robotics-ER 1.5 e Gemini 3.0 Flash, migliorando specificamente le capacità di ragionamento spaziale e fisico come l'indicare (pointing), il contare e il rilevamento del successo. Stiamo anche sbloccando una nuova capacità: la lettura degli strumenti, che permette ai robot di leggere manometri complessi e indicatori di livello — un caso d'uso che abbiamo scoperto attraverso una stretta collaborazione con il nostro partner, Boston Dynamics.
A partire da oggi, Gemini Robotics-ER 1.6 è disponibile per gli sviluppatori tramite la Gemini API e Google AI Studio. Per aiutarvi a iniziare, stiamo condividendo un Colab per sviluppatori contenente esempi su come configurare il modello e sollecitarlo per compiti di ragionamento incarnato.
Risultati benchmark e nuove capacità
La figura 1 mostra i risultati dei benchmark che confrontano Gemini Robotics-ER 1.6 con i modelli Gemini Robotics-ER 1.5 e Gemini 3.0 Flash. Le valutazioni della lettura degli strumenti sono state eseguite con la visione agentica abilitata (ad eccezione di Gemini Robotics-ER 1.5 che non la supporta). Tutte le altre valutazioni sono state eseguite con la visione agentica disabilitata. Le valutazioni del rilevamento del successo in vista singola e multi-vista contengono esempi diversi e quindi non sono comparabili.
La precisione nel "pointing" (indicare)
Il "pointing", ovvero la capacità di indicare o localizzare elementi specifici in un'immagine, è una capacità fondamentale per un modello di ragionamento incarnato, evolvendo con ogni generazione di modelli. I punti possono essere utilizzati per esprimere molti concetti, tra cui:
- La posizione di un singolo oggetto o di molti.
- Il conteggio degli elementi in un'immagine.
- Punti salienti su un'immagine che possono essere utilizzati per stime metriche.
- Un'area o una regione su un'immagine (ad esempio, "l'acqua nella tazza").
- Valori numerici specifici (ad esempio, "cosa legge l'ago sul manometro").
- Relazioni complesse (ad esempio, "il lato sinistro dell'oggetto blu").
Gemini Robotics-ER 1.6 può utilizzare i punti come passaggi intermedi per ragionare su compiti più complessi. Ad esempio, può utilizzare i punti per contare gli elementi in un'immagine o per identificare punti salienti su un'immagine per aiutare il modello a eseguire operazioni matematiche per migliorare le sue stime metriche.
L'esempio seguente mostra i punti di forza di Gemini Robotics-ER 1.6 nell'indicare più elementi e nel sapere quando e quando non indicare. Gemini Robotics-ER 1.6 identifica correttamente il numero di martelli (2), forbici (1), pennelli (1), pinze (6) e una collezione di attrezzi da giardino che possono essere interpretati come un singolo gruppo o più punti. Non indica gli oggetti richiesti che non sono presenti nell'immagine — una carriola e un trapano Ryobi. In confronto, Gemini Robotics-ER 1.5 non riesce a identificare il numero corretto di martelli o pennelli, manca del tutto le forbici, allucina una carriola e manca di precisione nell'indicare le pinze. Gemini 3.0 Flash è vicino a Gemini Robotics-ER 1.6, ma non gestisce le pinze altrettanto bene.
Rilevamento del successo: la chiave dell'autonomia
Nella robotica, sapere quando un compito è terminato è altrettanto importante quanto sapere come iniziarlo. Il rilevamento del successo è una pietra miliare dell'autonomia, fungendo da motore decisionale critico che consente a un agente di scegliere intelligentemente tra riprovare un tentativo fallito o passare alla fase successiva di un piano. Questo permette ai robot di operare con maggiore efficienza e di adattarsi a situazioni impreviste, riducendo la necessità di intervento umano e migliorando l'affidabilità complessiva dei sistemi robotici in ambienti dinamici e non strutturati.
Comprensione multi-vista in ambienti complessi
Raggiungere la comprensione visiva nella robotica è una sfida, che richiede sofisticate capacità di percezione e ragionamento combinate con una vasta conoscenza del mondo per gestire fattori complicanti come occlusioni, scarsa illuminazione e istruzioni ambigue. Inoltre, la maggior parte delle moderne configurazioni robotiche include più telecamere, come una telecamera dall'alto e una montata sul polso del robot. Ciò significa che un sistema deve comprendere come le diverse prospettive si combinano per formare un'immagine coerente in ogni momento e nel tempo.
Gemini Robotics-ER 1.6 avanza il ragionamento multi-vista, consentendo al sistema di comprendere meglio più flussi di telecamere e la relazione tra essi, anche in ambienti dinamici o occlusi, come dimostrato nello scenario multi-vista tipico seguente. Gemini Robotics-ER 1.6 ricava indizi da più visuali della telecamera per determinare quando il compito "metti la penna blu nel portapenne nero" è completato. Questa capacità è cruciale per i robot che operano in ambienti complessi, dove una singola prospettiva potrebbe non fornire informazioni sufficienti per completare un compito in modo efficace.
La lettura degli strumenti: un'innovazione critica
Per comprendere un punto di forza chiave di Gemini Robotics-ER 1.6, dobbiamo esaminare come combina capacità come il ragionamento spaziale e la conoscenza del mondo per risolvere problemi complessi del mondo reale. Un esempio perfetto è la lettura degli strumenti.
Questo compito deriva dalle esigenze di ispezione delle strutture, un'area di interesse critica per i nostri partner di Boston Dynamics. Le strutture industriali contengono molti strumenti — termometri, manometri, indicatori di livello chimici e altro ancora — che richiedono un monitoraggio costante. Spot, un prodotto robotico di Boston Dynamics, è in grado di visitare gli strumenti in tutta la struttura e catturare immagini di essi.
Gemini Robotics-ER 1.6 consente ai robot di interpretare una varietà di strumenti, inclusi manometri circolari, indicatori di livello verticali e letture digitali moderne. La lettura degli strumenti richiede un ragionamento visivo complesso. Si deve percepire con precisione una varietà di input — inclusi aghi, livello del liquido, confini del contenitore, tacche e altro — e comprendere come tutti questi elementi si relazionano tra loro. Nel caso degli indicatori di livello, questo implica la stima di quanto il liquido riempia l'indicatore tenendo conto della distorsione dalla prospettiva della telecamera. I manometri di solito hanno del testo che descrive l'unità, che deve essere letto e interpretato, e alcuni hanno più aghi che si riferiscono a diverse posizioni decimali che devono essere combinate.
Capacità come la lettura degli strumenti e un ragionamento più affidabile sui compiti consentiranno a Spot di vedere, comprendere e reagire alle sfide del mondo reale in modo completamente autonomo.
Il meccanismo dell'agentic vision
Gemini Robotics-ER 1.6 raggiunge le sue letture degli strumenti altamente accurate utilizzando la visione agentica, che combina il ragionamento visivo con l'esecuzione di codice. Il modello compie passaggi intermedi: prima ingrandisce un'immagine per ottenere una migliore lettura dei piccoli dettagli in un manometro, quindi utilizza l'indicazione e l'esecuzione di codice per stimare proporzioni e intervalli e ottenere una lettura accurata, e infine applica la sua conoscenza del mondo per interpretare il significato.
La figura 2 illustra come i diversi elementi di Gemini Robotics-ER 1.6 contribuiscono al raggiungimento di un alto livello di prestazioni nel compito di lettura degli strumenti. Questo esempio dimostra come il modello utilizzi l'indicazione e l'esecuzione di codice per lo zoom al fine di derivare la lettura del manometro fino alla precisione sub-tacche.
Sicurezza integrata e migliorata
La sicurezza è integrata in ogni livello dei nostri modelli di ragionamento incarnato. Gemini Robotics-ER 1.6 è il nostro modello robotico più sicuro fino ad oggi, dimostrando una conformità superiore con le politiche di sicurezza di Gemini nei compiti di ragionamento spaziale avversario rispetto a tutte le generazioni precedenti.
Il modello mostra anche una capacità sostanzialmente migliorata di aderire ai vincoli di sicurezza fisica. Ad esempio, prende decisioni più sicure attraverso output spaziali come l'indicazione riguardo a quali oggetti possono essere manipolati in sicurezza in base a vincoli di presa o di materiale (ad esempio, "non maneggiare liquidi", "non raccogliere oggetti più pesanti di 20 kg").
Abbiamo anche testato quanto bene il modello identifica i rischi per la sicurezza in scenari di testo e video basati su rapporti di infortuni reali. Su questi compiti, i nostri modelli Gemini Robotics-ER migliorano rispetto alle prestazioni di base di Gemini 3.0 Flash (+6% nel testo, +10% nel video) nella percezione accurata dei rischi di lesioni.
La figura 3 mostra come Gemini Robotics-ER 1.6 migliori sostanzialmente rispetto a Gemini Robotics-ER 1.5 nella "Safety Instruction Following", che testa la capacità di aderire ai vincoli di sicurezza fisica. Migliora rispetto a Gemini 3.0 Flash nel "pointing", e entrambi i modelli hanno un livello molto alto.