Holotron-12B: Agente ad alta produttività per l'utilizzo del computer

Hugging Face Blog 6 aprile 2026

Siamo entusiasti di annunciare il rilascio di Holotron-12B, un modello multimodale per l'utilizzo del computer sviluppato da H Company. Post-addestrato a partire dal modello open NVIDIA Nemotron-Nano-2 VL, utilizzando una combinazione proprietaria di dati di H Company, Holotron-12B rappresenta il culmine di una stretta collaborazione tra i nostri laboratori di ricerca. L'obiettivo era ingegnerizzare un nuovo tipo di modello ottimizzato primariamente per la scalabilità e le prestazioni in ambienti di produzione, segnando un passo significativo nell'evoluzione degli agenti basati su intelligenza artificiale.

Holotron-12B: Un Nuovo Paradigma per gli Agenti di Computer-Use

Mentre la maggior parte dei modelli multimodali odierni è ottimizzata principalmente per la visione statica o per seguire istruzioni specifiche, Holotron-12B, proprio come il nostro precedente modello Holo2, persegue un obiettivo diverso e più ambizioso. La sua finalità è servire come modello di policy per agenti di utilizzo del computer che devono percepire, decidere e agire in modo efficiente all'interno di ambienti interattivi e dinamici. Con Holotron-12B, l'intento era creare un modello capace di scalare efficacemente e con efficienza in produzione, gestendo al contempo contesti lunghi con molteplici immagini, pur mantenendo prestazioni elevate sui benchmark degli agenti.

Il modello NVIDIA Nemotron ha offerto una solida base dal lato dell'inferenza, e attraverso lo sviluppo di Holotron-12B, abbiamo dimostrato quanto un modello possa realizzare con un ulteriore addestramento mirato. Questa sinergia tra la tecnologia di base di NVIDIA e l'innovazione di H Company ha permesso di superare i limiti attuali dei modelli multimodali, aprendo nuove possibilità per applicazioni pratiche nel mondo reale.

L'Architettura Ibrida SSM-Attenzione: Il Cuore dell'Efficienza

Il significativo balzo in avanti di Holotron-12B in termini di efficienza di inferenza è reso possibile dalla sua architettura fondazionale Nemotron, che impiega un meccanismo ibrido di State-Space Model (SSM) e attenzione. A differenza dei modelli puramente basati su trasformatori, questo design è ottimizzato per un servizio ad alto throughput. Gli State-Space Model offrono una scalabilità superiore per l'inferenza su contesti lunghi, evitando il costo computazionale quadratico associato al meccanismo di attenzione completo. Questo beneficia particolarmente i carichi di lavoro agentici che coinvolgono molteplici immagini e lunghe cronologie di interazione.

I Vantaggi Incomparabili degli State-Space Model (SSM)

In termini di inferenza, il contributo principale di un SSM è la sua impronta di memoria drasticamente ridotta. Mentre l'attenzione "vanilla" (standard) memorizza le attivazioni K e V per token e per strato (il famigerato KV Cache), gli SSM sono un modello lineare ricorrente. Essi memorizzano solo uno stato costante per strato per sequenza generata, indipendentemente dalla lunghezza della sequenza. Questa caratteristica intrinseca degli SSM li rende estremamente efficienti per la gestione di contesti estesi, una capacità cruciale per gli agenti che operano in ambienti complessi e richiedono una memoria a lungo termine per le loro decisioni e azioni.

Prestazioni Sbalorditive sul Benchmark WebVoyager

Quando valutato sul WebVoyager Benchmark, Holotron-12B si distingue in un carico di lavoro agentico multimodale reale, caratterizzato da un contesto lungo, molteplici immagini ad alta risoluzione e un'elevata concorrenza di richieste di 100 worker. Operando su una singola GPU H100 e utilizzando vLLM con le più recenti ottimizzazioni SSM (v0.14.1), Holotron-12B ha raggiunto un throughput superiore di oltre 2x rispetto a Holo2-8B. Questo rende Holotron-12B una scelta estremamente attraente per carichi di lavoro "throughput-bound", ovvero quelli in cui l'alta produttività è fondamentale. Questi includono:

Generazione di dati: Creazione automatica di set di dati complessi e diversificati.
Annotazione: Etichettatura automatica di immagini e altri tipi di dati per l'addestramento di modelli.
Apprendimento per rinforzo online: Addestramento continuo di agenti in ambienti dinamici e in tempo reale.

Scalabilità Ineguagliabile in Condizioni di Concorrenza

In un esperimento controllato (illustrato schematicamente nella figura 2), Holotron-12B continua a scalare efficientemente all'aumentare della concorrenza. Il throughput totale di token cresce costantemente, raggiungendo 8.9k token/s a una concorrenza massima di 100. Al contrario, il throughput totale di token di Holo2-8B si stabilizza molto più rapidamente, fermandosi a 5.1k token/s.

Questo comportamento evidenzia un punto di forza chiave dell'architettura Nemotron: un utilizzo più efficace ed efficiente della VRAM e un'impronta di memoria complessiva più piccola. Questo consente batch size effettivi molto più grandi sullo stesso hardware, mantenendo un throughput elevato anche con l'aumento delle dimensioni del batch. Tale efficienza è fondamentale per implementazioni su larga scala, dove la gestione delle risorse hardware è cruciale per la sostenibilità e le prestazioni.

Il Processo di Addestramento di Holotron-12B

L'addestramento di Holotron-12B è stato condotto in due fasi distinte per massimizzare le sue capacità:

Siamo partiti da Nemotron-Nano-12B-v2-VL-BF16, un modello base multimodale pubblicato da NVIDIA. Questo ha fornito una base robusta per le capacità di comprensione multimodale.
Abbiamo poi eseguito un fine-tuning supervisionato sulla combinazione proprietaria di dati di localizzazione e navigazione di H Company. Questa fase si è concentrata in modo specifico sulla comprensione dello schermo, sul "grounding" (associazione di elementi visivi a concetti) e sulle interazioni a livello di interfaccia utente (UI).

Il checkpoint finale è stato addestrato su circa 14 miliardi di token, un volume di dati considerevole che ha permesso al modello di apprendere un'ampia gamma di comportamenti e interazioni necessari per un agente di utilizzo del computer efficace.

Miglioramenti Significativi nelle Prestazioni degli Agenti

Sui benchmark relativi all'utilizzo del computer e alla navigazione, Holotron-12B mostra notevoli miglioramenti rispetto al modello base Nemotron e prestazioni solide rispetto a modelli di agenti già consolidati. La sua performance sul benchmark WebVoyager è aumentata dal 35.1% all'80.5%, superando la performance di Holo2-8B sul medesimo benchmark e illustrando la capacità del modello di operare efficacemente in un contesto agentico. Holotron-12B migliora sostanzialmente anche rispetto al modello base Nemotron su benchmark di localizzazione e grounding, come OS-World-G, GroundUI e WebClick. Questi risultati confermano la sua superiorità nell'interpretazione e nell'interazione con ambienti digitali complessi.

Il Valore della Collaborazione NVIDIA-H Company

Holotron-12B dimostra inequivocabilmente che il modello NVIDIA Nemotron VL fornisce una solida base per agenti multimodali del mondo reale, soprattutto quando abbinato alla giusta configurazione di addestramento e a un'infrastruttura adeguata. Il modello offre prestazioni robuste come agente, un throughput di inferenza significativamente migliorato e un chiaro percorso per futuri miglioramenti, in particolare per quanto riguarda l'addestramento visivo a più alta risoluzione. Siamo impazienti di vedere cosa gli sviluppatori potranno creare con Holotron-12B.

Disponibilità e Sviluppi Futuri

Il modello e i checkpoint di Holotron-12B sono disponibili ora su Hugging Face, rilasciati sotto licenza NVIDIA Open Model License. Questo rende la tecnologia accessibile a un'ampia comunità di ricercatori e sviluppatori, incoraggiando l'innovazione e nuove applicazioni.

In un annuncio recente, NVIDIA ha comunicato il rilascio di Nemotron 3 Omni. Basandoci sul successo di Holotron-12B, ci stiamo preparando per il post-addestramento di questa prossima generazione di modelli multimodali. Sfruttando le fondamenta architettoniche migliorate di Nemotron 3, che includono SSM-Attention ibridi e meccanismi MoE (Mixture of Experts), puntiamo a fornire progressi ancora maggiori nelle capacità di ragionamento e nella precisione multimodale con il nuovo Nemotron 3 Omni. Poiché questa evoluzione spinge Holotron oltre la ricerca e verso un'applicazione commerciale, fornirà alle aziende le prestazioni ad alto throughput e bassa latenza richieste per implementazioni su vasta scala di "utilizzo autonomo del computer". Questo rappresenta un passo fondamentale verso l'automazione intelligente e l'efficienza operativa in svariati settori industriali.

Leggi l'articolo originale →

← Torna alle news