Le capacità di Claude Code '/goals' separano l'agente che esegue da quello che decide che il lavoro è fatto

VentureBeat AI 16 maggio 2026

Introduzione a Claude Code e la separazione tra esecuzione e valutazione

Troppo spesso, un agente di migrazione del codice termina una sua esecuzione con una pipeline che mostra un risultato positivo, ma in realtà non tutti i componenti sono stati correttamente compilati. Questo non è un fallimento del modello in sé, ma un caso in cui l’agente decide prematuramente che il lavoro è completato. Secondo Emilia David, molte imprese stanno osservando che le pipeline degli agenti AI falliscano non per mancanza di capacità modello, ma perché il modello decide di interrompere il lavoro prima che sia realmente concluso.

Ad oggi, diverse soluzioni sono state introdotte da aziende come LangChain, Google e OpenAI per affrontare il problema delle uscite premature. Una nuova proposta arriva da Anthropic con l’introduzione di

Claude Code /goals, una funzione progettata per distinguere chiaramente tra l’esecuzione del compito e la valutazione del suo completamento.

Il funzionamento in loop: l’elemento fondamentale di un agente di codifica

Gli agenti di programmazione operano in cicli, leggendo file, eseguendo comandi e modificando il codice. Dopo ogni passo, vengono controllati per verificare se il compito è terminato. Con il comando /goals di Claude Code, un secondo modello entra in gioco. Dopo che un utente definisce un obiettivo, Claude procede passo dopo passo, mentre un modello valutatore entra in gioco dopo ogni mossa per giudicare se l’obiettivo definito è raggiunto.

Questo funziona con due modelli distinti: uno che tenta di completare il compito e un altro, Haiku per default, che serve a verificare se effettivamente l’obiettivo è stato raggiunto. Ad esempio, un obiettivo potrebbe essere “tutti i test in test/auth passino e la formattazione del codice sia pulita”. L’agente procede e, ogni volta che cerca di terminare il lavoro, il modello valutatore controlla se la condizione definita è soddisfatta. Se non lo è, l’agente continua a lavorare.

Confronto con i concorrenti

I principali fornitori di strumenti di orchestrazione individuano lo stesso ostacolo ma lo affrontano in modo diverso. OpenAI mantiene il ciclo originale, permettendo all’utente di aggiungere propri valutatori. LangGraph e Google’s Agent Development Kit permettono valutazioni esterne, ma richiedono agli sviluppatori di configurare logiche personalizzate e di integrare la valutazione nel ciclo.

Anthropic ha scelto un approccio di valutazione predefinita, lasciando agli utenti la possibilità di regolare il tempo massimo esecuzione. Un vantaggio chiave del sistema di evaluation di Claude Code è la sua semplicità: richiede un solo modello, come Haiku, per valutare due condizioni — compito completato o meno — e non richiede l’uso esterno di piattaforme di osservabilità.

Parametri e best practices

In documentazione, Anthropic ha fornito linee guida utili per gli sviluppatori per configurare al meglio i loro obiettivi. Essi raccomandano:

Uno stato misurabile come esito, ad esempio un risultato del test, un codice di uscita di un compilatore o un numero di file;
Un controllo esplicito su come Claude deve verificare il successo, ad esempio eseguire un comando come “npm test”;
Delle limitazioni da rispettare durante l’esecuzione, ad esempio non modificare file che non siano test.

Potenzialità nella valutazione automatica

Per le imprese che utilizzano molteplici strumenti e orchestrazioni complesse, Claude Code è attraente grazie all’integrazione native di un modello valutatore, che non richiede la creazione di nuovi strumenti di monitoraggio. La tendenza a includere valutatori autonomi si sta diffondendo nel campo degli agenti AI, specialmente con l’emergere di agenti dotati di apprendimento continuo, cicli lunghi e stati conservati.

Agenti simili, come Devin o SWE-agent, stanno iniziando anche loro a includere sistemi di valutazione autonomi, un cambiamento che sta trasformando radicalmente come vengono utilizzati gli agenti AI nella programmazione.

Un’opinione esterna: Anthropic non è nuovo al concetto

Sean Brownell, un dirigente di tecnologia alla Sprinklr, ha commentato a VentureBeat via email che il concetto di separare l’esecutore dalla valutazione è corretto ma non unico per Anthropic. “Il loop funziona. Separare il costruttore e il giudice è un design sano perché, in sostanza, non puoi fidarti che un modello giudichi correttamente il proprio lavoro. Tuttavia, Anthropic non è il primo in questo campo,” ha sottolineato.

Secondo Brownell, il modello funziona meglio per compiti deterministici, come aggiornamenti di codice, aggiustamenti di test falliti o pulizia di un backlog. Per attività più complesse che richiedono giudizio estetico o decisioni creative, il ruolo umano rimane indispensabile. L’implementazione di questo dualismo tra esecutore e valutatore mostra che aziende come Anthropic stanno spingendo i propri agenti verso sistemi più auditabili e osservabili, aprendo nuove possibilità nel campo dell'intelligenza artificiale.

Leggi l'articolo originale →

← Torna alle news