Microsoft Rilascia Fara1.5: Una Famiglia Di Agenti Per Browser Che Sbalordiscono Le Prestazioni

MarkTechPost 22 maggio 2026

Microsoft Research ha annunciato un’importante avanzata nel campo dell'intelligenza artificiale con il lancio di Fara1.5, una famiglia di modelli di agenti per l'utilizzo del browser. Disponibili in tre dimensioni: Fara1.5-4B, Fara1.5-9B e Fara1.5-27B, questi modelli integrano MagenticLite, l’interfaccia browser sandboxata di Microsoft per l'utilizzo di questi agenti.

Agentic AI: Un Avanzamento Delle Prestazioni Online

Un agente di utilizzo del computer (Computer Use Agent o CUA) è un modello “pixel-to-action” che controlla un browser reale. Esso legge schermate e genera azioni, come quelle del mouse e della tastiera, per completare compiti online. Le ultime innovazioni in questo campo, come Operator di OpenAI e Gemini 2.5 di Google, rientrano in questa categoria.

Fara1.5-27B raggiunge un 72% di successo nell'esecuzione delle attività del benchmark Online-Mind2Web. Questo test comprende 300 attività distribuite su 136 siti web popolari. Sullo stesso benchmark, OpenAI Operator ottiene il 58.3%, mentre Gemini 2.5 Computer Use totalizza un 57.3%. Yutori’s Navigator n1 arriva al 64.7% e Fara1.5-9B al 63.4%. Il predecessore, Fara-7B, ottenne solo il 34.1%.

Architettura E Ciclo Di Funzionamento

Fara1.5 utilizza punti di controllo di base del modello Qwen3.5 nei suoi varianti 4B, 9B e 27B. Operando attraverso un ciclo osserva-pensa-azioni, il modello esamina le tre schermate del browser più recenti e il contesto dialogico precedente. In ogni passo, il modello emette “pensieri” e un’unica azione successiva.

Pannello Di Azione

L'insieme di azioni include input standard di mouse e tastiera, ma si estende a funzioni web specifiche come la ricerca online. Inoltre, vengono esposte azioni meta per la gestione del contesto. Tra queste, si distinguono ricordare fatti per uso successivo e porre domande alla persona utente. Queste azioni meta permettono agli agenti di funzionare su orizzonti temporali più lunghi e di collaborare efficacemente con gli utenti.

Piano Di Training

Il training degli agenti Fara1.5 si basa su sintonizzazione supervisionata approssimativamente su due milioni di esempi. I dati di formazione provengono da diversi set: il 60% copre percorsi web, il 12.8% ambienti sintetici. Il 12.5% riguarda l’inserimento di form online e interazioni con gli utenti; l’8.8% si focalizza sulla grounding semantica, il 4.9% su interrogazioni visive. Piccole percentuali sono dedicate a compiti come il drag delle GUI, l’esecuzione di istruzioni e la sicurezza.

La perdita di addestramento è applicata solo alle ultime tre interazioni in ciascun percorso. Questo approccio mira a migliorare la precisione e l’efficacia complessiva del modello.

FaraGen1.5: Il Sistema Di Dati Sintetici

FaraGen1.5 è il processo utilizzato per generare i dati sintetici durante il training. Essendo modulare, FaraGen1.5 ha tre componenti principali: ambienti, risolvitori e verificatori. Gli ambienti si dividono in due tipi: compiti aperti su Internet e compiti di domini protetti.

Ambienti: Open-Internet E Gated-Domains

Gli ambienti aperti su Internet funzionano su siti web senza bisogno di login. I compiti su domini protetti richiedono sessioni autenticate o azioni irrinviabili, come speditare una e-mail. Per coprire i domini chiusi, il team ha creato sei cloni sintetici chiamati FaraEnvs. Questi coprono le seguenti aree: Posta, Calendario, Streaming, Machine Learning, Booking e Schedulazione.

Ogni clone presenta un frontend realistico, un’interfaccia API completamente funzionale e una base dati inizializzata con dati di persona. Queste piattaforme sono state create utilizzando GitHub Copilot CLI e successive integrazioni umane iterative. Il controllo completo della pila tecnologica consente ai ricercatori di conoscere il risultato corretto di ogni compito.

Verifica Del Risultato

Per i compiti dove il backend muta, un giudice basato su un LLM confronta gli snapshot della base dati prima e dopo l’esecuzione. Dove non vi è cambiamento di stato, l’output viene confrontato con risposte di riferimento precalcolate.

Risolutore

L’agente risolutore utilizza GPT-5.4 di OpenAI con strumenti dedicati in grado di specchiare l’insieme d’azioni di Fara1.5. Questo modello ha ottenuto un 83% sui benchmark Online-Mind2Web grazie a WebJudge automatizzati. Il precedente risolutore Fara-7B aveva ottenuto un 67% sullo stesso set di test.

Un simulatore di utenti è richiamato quando il sistema richiede informazioni al pubblico, o dopo il completamento di una sessione di lavoro.

Verifica Dei Percorsi

Per accedere al training, i percorsi vengono verificati da tre verificatori. La correttezza è valutata tramite rubriche generate tramite LLM per i percorsi online e giudizi privilegiati basati su database per i dati sintetici. L’efficienza punisce le azioni ridondanti. L'interazione con l’utente richiede di verificare che l’agente si fermi nei punti critici.

Punti Critici Dello Scenario Di Sicurezza

Fara1.5 è addestrato per fermarsi e chiedere autorizzazione in tre situazioni specifiche. Prima, quando un compito richiede informazioni personali non concesse. Secondo, quando la descrizione di un compito è ambigua o contiene informazioni incomplete. Terzo, quando un'azione irrevocabile è prossima all'esecuzione e non ha ricevuto previa approvazione.

L’addestramento alla sicurezza sfrutta dataset pubblici e compiti interni allineati alle linee guida di Microsoft in materia di intelligenza artificiale responsabile. Nel sandbox MagenticLite, tutte le azioni dell'agente sono registrabili e verificabili. La sandbox del browser agisce anche da barriera di sicurezza tra l'agente e la macchina dell’utente.

Benchmark Altri Modelli

Su WebVoyager, Fara1.5-27B punta al 88.6% di successo, Fara1.5-9B al 86.6% e Fara1.5-4B al 80.8%. Il modello 9B supera agenti simili in dimensione come MolmoWeb 8B, GUI-Owl-1.5 8B e Holo2 8B. Alla base di t

Leggi l'articolo originale →

← Torna alle news