nuovo frammento di AI arbor migliora in modo significativo claudie code e codex di 2.5x su stesso budget di calcolo

VentureBeat AI 20 giugno 2026

Riceviamo spesso domande sulla capacità dell’intelligenza artificiale di ottimizzare i sistemi software autonomamente. Il framework Arbor, creato da ricercatori di Renmin University e Microsoft Research, risponde a questa esigenza con un approccio innovativo.

Il concetto di ottimizzazione autonomo

L'AI sta diventando sempre più capace di gestire compiti complessi come l'ottimizzazione autonomo (AO) di software, inclusi agenti o algoritmi di training dei modelli. AO cattura il ciclo fondamentale della ricerca autonoma, dove un agente parte da un articolo iniziale mutabile, come un codicebase, ed ha un obiettivo chiaro. L’agente deve iterativamente migliorare quell’articolo utilizzando il feedback sperimentale senza supervisione umana passo dopo passo.

I problemi chiave di AO

Aiuta a comprendere i problemi fondamentali nel settore dell’ottimizzazione autonoma. Gli sviluppatori spesso si rendono conto di quanto sia inefficiente dare a un agente informatico tempo o risorse extra per migliorare un codice. "L'automazione può tenere attivo l'AI per molto tempo, ma un ciclo ripetitivo non è la stessa cosa del progresso," ha detto Jiajie Jin, coautore dello studio, a VentureBeat. "Senza un obiettivo chiaro o metriche sensibili al progresso, l’automazione non genera il tipo di miglioramenti che veramente si vogliono."

Le sfide principali includono:

La mancanza di strutture dati efficaci che tengano traccia delle esperienze accumulate.

Un’architettura limitata, dove le catene di chiamate strumentali non permettono test paralleli isolati.

Problemi di sovrallineamento (overfitting) e hacking delle ricompense, che portano a illusioni di progresso.

Il framework Arbor

Arbor risolve questi problemi offrendo un framework che automatizza il ciclo a lungo termine di esplorazione, sperimentazione e astrazione caratteristico del processo di ricerca umano. Si distingue attraverso due componenti chiave:

Il协调者 (coordinatore)

Un agente AI a lunga durata che funziona come un direttore principale di ricerca. Esso non modifica mai direttamente il codice, ma osserva lo stato generale di ottimizzazione, genera nuove ipotesi e prende decisioni sugli esiti sperimentali.

I executor

Agenți AI a breve vita, altamente concentrati. Quando il coordinatore ha un'ipotesi da testare, crea un executor e lo colloca in un ambiente isolato, quasi come una copia di un repository git non distruttiva. Ciascun executor è incaricato di una singola ipotesi; implementa l'idea assegnata, esegue valutazioni, risolve errori e riferisce i risultati al coordinatore.

Meccanismo di Hypothesis Tree Refinement

Arbor utilizza un meccanismo che i ricercatori chiamano "Hypothesis Tree Refinement" (HTR) per rappresentare il processo di ricerca come un albero persistente, dove ogni nodo unisce quattro elementi fondamentali: ipotesi, strumento eseguibile, evidenze fattuali e insight raffinati. Il coordinatore può esplorare diverse traiettorie concorrenti contemporaneamente senza perderne la traccia.

Esempio pratico: ottimizzazione di un pipeline RAG

Per illustrare l'importanza dell’isolamento, consideriamo uno scenario aziendale comune: ottimizzare una pipeline di RAG. "Quando chiederesti a un singolo agente come Claude Code o Codex di 'migliorare l'accuratezza', si troverebbe a modificare in contemporanea vari aspetti—chunking, prompt e il metodo di ricerca," spiegò Jin. Cio' crea confusione nell’identificazione di quali siano i veri progressi effettuati.

Arbor affronta questo problema trattando ogni variabile come una separata ipotesi. Chunking diventa un ramoscello, il retrieval un'altro ramoscello e il prompt un ramoscello separato. Ogni ipotesi viene implementata e valutata isolatamente. “Così puoi ottenere un'attribuzione limpida: 'la decomposizione delle restrizioni per il retrieve ha dato un +X; la ricerca in ampiezza ha danneggiato.'”

Valutazione e integrazione in sistemi aziendali

Alla ricezione di un rapporto di un executor, il coordinatore registra l'evidenza sperimentale all'interno dell'albero e ritrasmette l’insight in alto verso i nodi genitori. Ciò significa che un'osservazione locale diventa una restrizione generalizzata che influirà sulle successive ipotesi generate.

Per prevenire attacchi alle ricompense e il sovrapposizionamento, il framework HTR mantiene rigorose “porta di merge”. Perfino se un executor fornisce una valutazione elevata in ambiente di sviluppo, il coordinatore lancerà un test in un ambiente separato. L'oggetto viene incluso nel ramo principale solo se dimostra miglioramenti verificabili.

Applicazioni reali con Arbor

Le applicazioni di Arbor vanno oltre lo sviluppo software. Il team ha provato i miglioramenti in diversi scenari aziendali:

Ottenuta una riduzione del 30% nelle operazioni manuali ripetitive.

Migliorata la gestione degli errori di integrazione tra moduli diversi in un sistema.

Dimostrata una maggiore efficacia nel rispondere ai cambiamenti di metodi di valutazione del mercato.

Aumento del tempo di attività di sistemi critici del 45%.

Questi risultati sottolineano il potenziale del framework Arbor di applicarsi in ambienti industriali dove il miglioramento continuo è critico.

Leggi l'articolo originale →

← Torna alle news