Modelli AI Aperti: Harness-1 Supera Gpt-5.4 Nella Ricerca
Una collaborazione tra ricercatori dell’Università dell’Illinois a Urbana-Champaign (UIUC), dell’Università della California a Berkeley e la piattaforma Chroma ha introdotto Harness-1, un modello open source di AI per la ricerca con 20 miliardi di parametri, costruito su gpt-oss-20B di OpenAI. Questo modello riscrive i modi in cui le intelligenze artificiali eseguono compiti complessi di ricerca.
Harness-1 ha dimostrato una notevole capacità di ricordare informazioni rilevanti, ottenedo una media dell’73% su un dataset curation. Il risultato è superiore al GPT-5.4 (70.9%) e a Tongyi DeepResearch 30B, il prossimo e più preciso modello open source, che si trova a 11,4 punti percentuali di distanza. Sebbene GPT-5.5 sia disponibile da più di un mese, i ricercatori non hanno effettuato test contro di esso in quanto non era acceso in tempo per i loro test.
Modelli Open Source: Un Accesso Aperto Per Developer
Il modello e il suo ambiente sono immediatamente disponibili gratuitamente con la licenza Apache 2.0 per chiunque, un approccio di apertura estremo nel settore delle tecnologie di AI. Inoltre, il codice e i pesi del modello sono accessibili su Hugging Face, una piattaforma di riferimento nell’ambiente open source.
Harness-1 non è solo un modello avanzato, ma presenta anche un proof-of-efficacy per un’altra iniziativa: Tinker, l’API sviluppata da Thinking Machines per l’addestramento e l’ottimizzazione distribuiti di modelli AI. Tinker ha giocato un ruolo vitale nel training di Harness-1, mostrando il potenziale di strumenti interattivi moderni per lo sviluppo autonomo.
Evaluation Methodology: Prove Del Mondo Reale
Per verificare le capacità di Harness-1, i ricercatori hanno effettuato test su otto benchmarks di ricerca estremamente complessi. Questi benchmark richiedevano al modello di agire da ricercatore autonomo tra fonti diverse e informazioni dense.
- Web aperto: Ricerca su internet su argomenti vari
- SEC: Analisi di documenti finanziari
- USPTO: Consultazione di banche dati tecniche
- Domande a più passaggi: Individuazione di informazioni sparse in documenti diversi
Gli esiti hanno mostrato che Harness-1 ha dominato rispetto ai modelli open source, nonostante avesse 20 miliardi di parametri, una dimensione decisamente più modesta rispetto ai modelli più grandi, spesso con centinaia o migliaia di miliardi. Tra le eccezioni, c’è Opus-4.6, capace di un vantaggio minimo rispetto a Harness-1.
Ricerca Avanzata: Il Futuro Senza Limiti
Il modo in cui Harness-1 opera si distingue per l’efficienza con cui gestisce la memoria temporanea esterna al modello. Quando un modello elabora una ricerca complessa, richiede al sistema di svolgere autonomamente il lavoro di “annotazione” su migliaia di documenti o analisi finanziarie. Senza questo supporto, il modello finisce spesso in stati di amnesia di ricerca, dimenticando la query iniziale o perdendo focus su specifiche verifiche.
Finora, l’unica soluzione era forzare il modello a rileggere in continuazione i propri passaggi, accumulando ogni risultato nel contexto, una soluzione costosa e inefficiente.
Una Nuova Visione: Separare Struttura e Decisione
Ricercatori hanno spiegato il metodo di lavoro del modello con una metafora concreta. Immagina di assumere un bravo assistente per una ricerca complessa, ma di metterlo in una stanza vuota. Gli chiedi di redigere un lavoro che richiede la lettura di decine di libri, memorizzando ogni citazione, ogni ricerca e tutti i passaggi intermedi. Non importa quanto intelligente sia il collaboratore; alla fine perderà di vista l’obiettivo o dimenticherà informazioni.
Questo scenario rappresenta esattamente come funzionavano i modelli precedenti. I processi di ricerca e memorizzazione avvenivano entro una finestra crescente del contesto interno.
Patrick (Pengcheng) Jiang dell'Università dell'Illinois su X ha detto: “A un certo punto, il modello non ricerca solamente più. È anche un sistema di memory, un annotatore, un verificatore e un archivio.”
Il Cuore di Harness-1: Un ambiente che Memorizza
Harness-1 introduce una soluzione totalmente diversa con un ambiente esterno, come un ufficio per un ricercatore, dove vengono memorizzati i singoli passaggi di lavoro, evidenze selezionate, verifiche, citazioni e collegamenti compatti. L’obiettivo è liberare il modello per concentrarsi su ciò che conosce alla grande: la semantica, le decisioni, e l’esecuzione.
La policy decide cosa cercare, seleziona i documenti rilevanti e conosce quando fermarsi. L’ambiente esterno si occupa del resto.
Metodologia di Training: Un Processo Efficiente
La pipeline di allenamento di Harness-1 è incentrata su una metodologia unica che rompe con la tradizione del settore. Fino ad ora, gli sviluppatori hanno addestrato modelli di ricerca agici come politiche su trascrizioni gigantesche, con algoritmi RL che ottimizzavano compiti semantici e memoria insieme.
Harness-1 usa un approccio inverso. L’addestramento si concentra su insegnare al modello a interagire in modo strutturato con l’ambiente esterno, con un approccio SFT (Supervised Fine-Tuning) ristretto. Il team ha prodotto solo 899 traiettorie, generate da un modello GPT-5.4 insegnante, in uso nello stesso ambiente.
Lo scopo della fase SFT non era trasferire un gran numero di dati, ma abituare il modello ai ritmi basilari, come il formato di una richiesta, l’importanza dei tag, e il controllo delle citazioni.
Successivamente, il modello ha sostenuto un reinforcement learning (RL) con l’algoritmo CISPO, durante 40 turni. I ricercatori hanno sviluppato una funzione di ricompensa precisa, separando chiaramente “scoperta” da “selezione”. Il modello riceveva premi per trovare e aggiungere documenti rilevanti al set finale, e penalità in caso di dimenticanze.
Bonus per Strumenti e Diversità
Per evitare che il modello adottasse una strategia eccessivamente conservativa, hanno introdotto un bonus per la diversità degli strumenti. Questo incentivo ha evitato che si specializzasse esclusivamente in approcci di ricerca ripetitivi.
Il risultato finale