Holo3.1: Agenti Per L'Utilizzo Del Computer Veloci E Locali

Hugging Face Blog 21 giugno 2026

Il mese scorso abbiamo lanciato Holo3, nostro modello di ultima generazione per l'uso del computer. L'adozione è stata immediata e ampia. Sviluppatori, aziende e partner hanno iniziato a utilizzare Holo3 in diversi flussi di lavoro, dalla gestione del browser, al software aziendale, alle applicazioni desktop e agli strumenti interni. Man mano che la diffusione cresceva, abbiamo capito che la sola prestazione non era più sufficiente.

Gli utenti desiderano utilizzare le stesse capacità di utilizzo del computer in diversi ambienti desktop e mobili, integrati senza soluzione di continuità con varie framework di agenti. Desiderano una maggiore flessibilità nel deployment, che vada dalla cloud inference all'esecuzione completamente locale sui dispositivi di fine utente.

Per queste ragioni presentiamo la famiglia Holo3.1. Questa versione migliora la robustezza lungo le tre dimensioni più rilevanti in produzione: ambienti (web, desktop, mobile), framework degli agenti e destinazioni di deployment. Per la prima volta, rilasciamo nuovi checkpoint ottimizzati per l'inferenza locale, tra cui FP8, Q4 GGUF e NVFP4.

Holo3.1: Visione Verso Agenti Universali

Holo3.1 rappresenta un passo significativo verso il nostro obiettivo di agenti universali per l'utilizzo del computer: sistemi in grado di operare in diversi ambienti, integrarsi in qualsiasi stack di agenti e funzionare là dove si trovano realmente i flussi di lavoro.

Basi sulla famiglia Qwen, Holo3.1 è stato progettato per migliorare la robustezza negli ambienti reali dove gli agenti per l'uso del computer vengono implementati, mantenendo comunque un livello avanzato di prestazione.

Mentre le squadre migravano da Holo3 a produzione, abbiamo continuamente osservato la stessa sfida: una robusta prestazione in un ambiente non garantisce la stessa efficacia in un altro. I dispositivi mobili, le alternative alle agenti-harness e i diversi framework di esecuzione introducono ognuno le proprie fonti di distribuzione disallineata.

Maggiore Efficacia E Supporto Mobile

Holo3.1 estende le capacità di Holo3 oltre il controllo del browser e del desktop, fornendo significativi progressi nell'ambiente mobile. Nel test AndroidWorld, nostro modello 35B-A3B migliora da 67% a 79.3%, mentre le varianti più piccole da 4B e 9B migliorano da 58% a 72%.

Supporto Native Per Chiamate Di Funzione

Aggiunta del supporto per protocolli di chiamata delle funzioni.
Più vicina l'equivalenza tra le prestazioni native e le chiamate di funzione rispetto alle precedenti versioni.

Modelli Nuovi E Quantizzati

Per supportare meglio il deployment locale, stiamo rilasciando nuove dimensioni di modello che includono modelli piccoli (0.8B, 4B e 9B) per una spesa inferiore e una gestione dei dati privata, in aggiunta al più grande modello 35B-A3B per le prestazioni all'avanguardia.

Il rapporto tra prestazione e costo per la famiglia Holo3.1 e per Qwen 3.5 mostra un'efficacia media dei benchmark aziendali migliorata, considerando i quattro benchmark H Corporate, quindi una media su OSWorld, AndroidWorld, H Corporate, ScreenSpot-Pro e OSWorld-G.

Checkpoint Quantizzati

Checkpoint quantizzati disponibili per diverse configurazioni.
Ottengo FP8, Q4 GGUF e NVFP4 per una local execution ottimizzata.
Utilizziamo la configurazione W4A16 di Model Optimizer di NVIDIA per NVFP4.

I benefici delle quantizzazioni risultano considerevoli: su DGX Spark, NVFP4 W4A16 fornisce 1.41× del throughput totale rispetto a FP8 e 1.74× rispetto a BF16.

Deployment Lokale Con Apple Silicon

Rilasciamo anche i checkpoint Q4 GGUF per il deployment locale degli agenti dell’uso del computer su hardware consumer. L’agente stesso funziona localmente su macchine Windows e Mac, mentre il modello può essere eseguito su quella stessa macchina (abbiamo incluso le performance di riferimento per Apple Silicon) o su di un DGX Spark all’interno della stessa rete. In entrambi i casi, l’esecuzione rimane interamente locale e privata, senza che nulla lasci la rete dell’utente.

Ottimizzazione Di Esecuzione

Su Spark, le ottimizzazioni che abbiamo sviluppato con NVIDIA integrate alla quantizzazione NVFP4 offrono un aumento di circa il 2× rispetto alla baseline FP8, riducendo il tempo medio di passo da 6.8s a 3.3s.

Prestazioni E Velocità Su Diverse Piattaforme

I checkpoint FP8, NVFP4 e Q4 GGUF vengono rilasciati per deployment locali ed edge. Per DGX Spark, vLLM con NVFP4 presenta la più alta richiesta rate nei modi 'Default' e 'Fast', seguito da Q4 GGUF e FP8. Questi miglioramenti saranno disponibili in un prossimo harness desktop.

Contiamo di vedere cosa gli sviluppatori costruiranno utilizzando Holo3.1. Siamo estremamente entusiasti dell’impatto che questo rilascio potrebbe avere sull’utilizzo futuro del computer, con una maggiore libertà di esecuzione locale e una privacy rafforzata.

Leggi l'articolo originale →

← Torna alle news