Anthropic lancia Claude Sonnet 5 per eseguire agenti in modo più economico
Anthropic ha annunciato il lancio di Claude Sonnet 5, una versione più potente e autonoma del proprio modello intermedio, come risposta crescente alla richiesta nei settori aziendali per capacità agentiche avanzate. Secondo l'azienda, il nuovo modello può formulare piani, utilizzare strumenti come browser e terminali, ed eseguire attività in autonomia, una capacità che fino a pochi mesi fa richiedeva modelli molto più grandi e costosi. Questo annuncio fa parte di una tendenza più ampia nel settore: OpenAI e Google hanno già presentato modelli simili.
OpenAI ha lanciato in anteprima la propria GPT-5.6 Sol la settimana scorsa, descrivendola come il modello più "agente" disponibile da parte del colosso tecnologico, in grado di suddividere il lavoro tra sottagenti per compiti autonomi di lunga durata. Google invece ha lanciato a maggio il modello Gemini 3.5 Flash, che offre una serie di strumenti autonomi capaci di pianificare, costruire e completare compiti con poca interazione umana. Anche questi annunci ribadiscono l’importanza crescente delle capacità agentiche nei modelli avanzati.
Baseline di nuove tecnologie
Il lancio di Sonnet 5 conferma che la capacità agente è ormai una nuova aspettativa standard su ogni fascia di prezzo. L'esperienza mostra che il vero diversificatore non sarà più chi riesce a fornire le capacità agentiche in modo più avanzato, ma chi riesce a farlo più economicamente e in modo affidabile senza supervisione umana. Sonnet 5 si posiziona quindi come un'opzione economica, pur mantenendo una performance vicina a modelli di fascia superiore.
Anthropic ha dichiarato che Sonnet 5 fornirà prestazioni simili a quelle del modello Opus 4.8 a costi significativamente più bassi. A partire da martedì, Sonnet 5 sarà il modello gratuito per piani base e Pro, ed è disponibile per ogni profilo abbonato. All’avvio, Sonnet 5 ha un costo inferiore rispetto alle opzioni di OpenAI e Google. Il prezzo inizierà a $2 per un milione di token di input e $10 per un milione di token di output, ma dopo il 31 agosto salirà a $3 per un milione di token di input e $15 per un milione di token di output.
Vantaggi tecnici di Sonnet 5
Il modello presenta miglioramenti significativi rispetto al predecessore Sonnet 4.6, lanciato nel febbraio 2024, in particolare nella performance agente come ragionamento, utilizzo di strumenti, scrittura di codice e lavoro con contenuti informativi. Su uno specifico benchmark, Sonnet 5 ha ottenuto una valutazione di agentic coding del 63,2%, rispetto al 69,2% di Opus 4.8 e al 58,1% di Sonnet 4.6. Inoltre, ha leggermente superato Opus 4.8 per compiti legati al lavoro con dati, dove Opus è noto per eccellere in attività complesse come valutazioni sottili e ricerca approfondita.
“Opus 4.8 è comunque il modello da scegliere per ottenere maggiore precisione, ma Sonnet 5 offre una valida alternativa a un prezzo più accessibile“, ha comunicato Anthropic. “Con Sonnet 5 e Opus 4.8, gli sviluppatori possono scegliere il bilanciamento tra costi e performance necessario per i loro progetti.”
Esempi di utilizzo e risultanze
I testatori riportano una significativa capacità di Sonnet 5 nell’eseguire compiti complessi che fino a poco tempo fa risultavano incompleti. Gli utenti hanno segnalato che il modello riesce completare lavori autonomi come l’aggiornamento dei dati clienti in Salesforce e l’invio di annunci a contatti aziendali, un lavoro che con le versioni precedenti spesso si arrestava a metà. La sua capacità di verificare i propri risultati, senza essere esplicitamente richiesto, gli conferisce una flessibilità maggiore rispetto ai modelli di fascia intermedia.
“Abbiamo dato a Claude Sonnet 5 un compito a due fasi — aggiornare le fasce di account Salesforce e inviare annunci a contatti aziendali — e ha completato in tutto”, ha dichiarato Daniel Shepard, senior engineer presso Zapier. “Un tempo, questo processo si fermava a metà. Per automazione quotidiana, è una scelta ovvia.”
Sicurezza e controlli
Anthropic ha sottolineato che Sonnet 5 mostra una riduzione nel tasso di comportamenti “indesiderati”, come quando si accompagna a richieste di abuso, inganno o comportamento coercitivo. Il nuovo modello rifiuta più facilmente richieste malvagie e resiste agli attacchi di iniezione di prompt. Rispetto a Sonnet 4.6, inoltre, presenta un livello più basso di allucinazioni e comportamenti servili.
Ciononostante, Sonnet 5 non raggiunge il livello dei modelli Opus 4.8 o Claude Mythos Preview per quanto riguarda il comportamento fuori allineamento con le intenzioni umane. “Gli esami hanno dimostrato che possiede una capacità molto inferiore rispetto ai nostri modelli Opus per eseguire attività di cibersicurezza pericolose”, ha dichiarato Anthropic nel proprio blog.
“Un modello che sa dire no in modo chiaro e costante è altrettanto importante quanto saper costruire”, ha affermato Fabian Hedin, co-fondatore di Lovable. “Stiamo mettendo strumenti potenti nelle mani di milioni di creatori.”