WebBrain: un agente di browser AI open source per Chrome e Firefox
WebBrain è un agente AI open source e gratuito progettato per Chrome e Firefox. Legge pagine web, estrae dati e automatizza attività multiple. A differenza della maggior parte delle estensioni AI per browser, WebBrain può operare interamente in locale mediante modelli locali.
Chi ha sviluppato WebBrain?
WebBrain è stato sviluppato da Emre Sokullu e rilasciato con una licenza MIT. Il codice sorgente completo è disponibile su GitHub, dove si può esaminare per contribuire o integrarlo con progetti personali.
Come funziona?
WebBrain è un’estensione del browser che si installa nel riquadro laterale. Su Chrome utilizza Manifest V3 e SidePanel API, mentre per Firefox utilizza Manifest V2 e sidebar_action. Ogni scheda mantiene il proprio storico delle conversazioni indipendentemente.
L’estensione opera all’interno della sessione autenticata esistente. Questo significa che vede gli account loggati esattamente come vedi tu. WebBrain non memorizza dati al di fuori della tua macchina, né aggiunge tracciamento né richiede credenziali.
WebBrain è disponibile in diverse lingue come inglese, spagnolo, francese, turco e cinese. Alla prima esecuzione, rileva automaticamente la lingua del browser.
Ask Mode e Act Mode
WebBrain ha due modi principali di funzionamento:
- Ask Mode: modalità di lettura sola, non modifica la pagina
- Act Mode: permette di fare clic, scrivere, scorrere, navigare e eseguire workflow in sequenza
Nel Ask Mode, WebBrain legge le pagine utilizzando script di contenuti standard.
Nel Act Mode invece, WebBrain utilizza il Protocollo Chrome DevTools tramite l’API chrome.debugger. Questo permette di eseguire eventi di input attendibili che i siti web accettano realmente. WebBrain riesce anche a accedere a iframes incrociati e DOM ombra che gli script di contenuti non possono vedere.
L’estensione esegue il debug della pagina necessario solo quando un’azione richiede l’accesso, per ogni scheda. In Chrome compare il messaggio standard “WebBrain ha iniziato il debugging” quando è in uso. In Firefox, manca un protocollo equivalente, quindi la modalità Act in Firefox è significativamente più debole.
Impostazioni di temperatura
WebBrain
La temperatura è fissa per motivi di prevedibilità. La modalità Act usa una temperatura di 0.15, mentre Ask mode utilizza 0.3. Le descrizioni delle immagini dedicate usano 0.
Modello di Sicurezza
Gli agenti browser operano in un ambiente potenzialmente ostile. WebBrain ha un’architettura progettata per ridurre il rischio in modo attivo.
L’agente inizia sempre in modalità Ask, che è di sola lettura. Prima di compiere azioni di rilievo, chiede esplicitamente. Questi prompt possono essere disattivati in Impostazioni, ma sono abilitati per default.
C’è anche una regola UI-first per le modifiche (mutation). Per qualsiasi azione che crei, mandi, invii o acquisti, WebBrain utilizza l’interfaccia visibile. Rifiuta di richiamare direttamente endpoint REST o GraphQL. Esiste un override specifico /allow-api per ogni conversazione quando l’interfaccia non è effettivamente utilizzabile.
La lettura non è vincolata da queste restrizioni. L’accesso a README o confronti di prezzo utilizzeranno chiamate API in background tramite gli strumenti fetchurl e researchurl. La lettura non modifica i dati remoti, quindi le stesse regole non si applicano.
Utilizzo Pratico: Esempi Concreti
WebBrain ha molte applicazioni, tra le più evidenti:
- Estrazione dati: apri un catalogo e chiedi “Estrai tutti i nomi e i prezzi dei prodotti di questa pagina”. L’agente legge la struttura e restituisce i risultati in formato tabulare.
- Sintesi di ricerca: chiedi “Riepiloga questo articolo”, quindi in seguito un’analisi specifica. WebBrain riconosce correttamente le paywall e non cerca di aggirarle. Rifiuta automaticamente le barre comuni di cookie consent prima della lettura.
- Compilazione moduli: Ideale per iscrizioni ripetitive. Un profilo opzionale di WebBrain memorizza un breve profilo biografico in locale in testo puro, da inviare al modello LLM configurato.
- Automazione: Provare ad esempio “Naviga a github.com e trova repository popolari”. Nella modalità Act, WebBrain concatena spostamenti, letture e clic.
Riduzione Costi Token
Usare modelli basati su cloud ha costi elevati, soprattutto per sessioni prolungate. WebBrain utilizza tre tecniche per limitare questi costi:
- Le immagini sono ridimensionate e comprimate iterativamente come JPEG prima di lasciare la tua macchina, per mantenere i token delle immagini bassi.
- L’history delle conversazioni e gli output degli strumenti vengono eliminati in ordine cronologico inverso quando lo spazio di contesto si riempie.
- Puoi accoppiare un modello economico di testo per il piano con un separato visionario per le immagini.
Confronto con altri strumenti
WebBrain si colloca fra gli plugin browser AI e i framework agent completi. Questo confronto è basato sulle informazioni del progetto:
| Funzionalità | WebBrain | Open Source |
|---|---|---|
| Licenza | MIT | Proprietaria |
| Prezzo | Gratis per sempre | Richiede Claude Pro ($20/mese) |
| Supporto LLM Locale | llama.cpp, Ollama | No — soltanto Claude |
| Servizi Cloud multipli | Tutti i servizi compatibili con OpenAI | Esclusivamente Claude |
| Chrome | Sì (Manifest V3) | Sì |
| Firefox | Sì (Manifest V2) | No |
| Interfaccia riquadro laterale | Sì | Sì |
| Modalità Ask / Act | Sì | Simili |
| Completamente offline | Sì (con modello locale) | No — richiede cloud |
| Fuori dal browser | Sì | No |
Frammenti come OpenClaw o Browser-Use
WebBrain
Rappresentano una categoria diversa: si tratta di SDK sviluppati per pipeline headless per il backend. WebBrain invece è un'estensione per utenti finali controllabile da un pannello di chat, utilizz