Anthropic Distribuisce Claude Sonnet 5, Fable e Mythos Ripristinati
Anthropic ha lanciato il modello Claude Sonnet 5 e ha riabilitato l'accesso ai modelli avanzati Fable e Mythos dopo una revisione federale sui controlli sulle esportazioni.
Ripristino e sospensione operativi
La decisione segna la conclusione di una sospensione operativa di diciotto giorni iniziata il 12 giugno, quando il governo statunitense ha emanato una direttiva sugli standard di controllo delle esportazioni, costringendo Anthropic alla sospensione temporanea dei propri sistemi più avanzati.
Ragioni della sospensione
I rappresentanti governativi hanno imposto la restrizione dopo che ricercatori Amazon hanno identificato un metodo per aggirare i controlli di sicurezza di Fable 5, permettendo al modello di riconoscere vulnerabilità del software e generare codice per sfruttarle. Anthropic ha successivamente realizzato un classificatore automatizzato aggiornato per correggere questa debolezza, aprendo la strada al lancio completo.
Regolamenti e verifica della sicurezza
La sospensione di Fable 5 e Mythos ha sottolineato le pressioni regolamentari a cui sono sottoposti i sistemi avanzati di intelligenza artificiale. Quando la direttiva è entrata in vigore, il mancato accesso a un sistema di verifica in tempo reale per la nazionalità ha richiesto un blocco totale di accesso a tutti gli utenti internazionali.
I test di sicurezza
- I test confermavano che il comportamento di identificazione delle vulnerabilità non era unico a Fable 5.
- Architetture meno avanzate di diversi fornitori, tra cui Claude Opus 4.8, GPT-5.5, e Kimi K2.7, hanno replicato gli stessi risultati.
Soluzione del problema federale
Per soddisfare la direttiva federale, gli ingegneri hanno addestrato un classificatore automatico per la sicurezza, mirando al meccanismo di aggiramento riferito da Amazon. Questo strato di software funziona con un ampio margine di sicurezza, identificando e bloccando richieste di sviluppo ambigui con una probabilità statistica di intenti malvagi.
Dati e valutazioni
- I dati interni suggeriscono che il nuovi classificatore impedisce la tecnica di sfruttamento segnalata in più del 99 percento dei test.
- Quando un prompt attiva questa soglia di sicurezza, il carico di lavoro viene immediatamente deviato all'architettura Claude Opus 4.8, per assicurata la continuità.
- Il maggiore margine di sicurezza introduce un compromesso per i team di ingegneria, in quanto il sistema automatizzato segnala con maggiore frequenza richieste innocue durante la sperimentazione e il debugging.
Sonnet 5 e modelli avanzati
Il focus commerciale immediato è rivolto al lancio di Sonnet 5. Le squadre di ingegneria stanno iniziando a trasferire gli agenti autonomi su questo modello per ridurre i costi operativi mantenendo alta capacità esecutiva. I dati sulle prestazioni confermano l'esecuzione di piani multi-step, operare in ambienti terminali, e navigare i browser senza interazione umana.
Dati di prestazione e costi:
- Sonnet 5: SWE-bench Pro 63.2%, Terminal-Bench 2.1 80.4%, costo input 3.00, costo output 15.00
- Sonnet 4.6: SWE-bench Pro 58.1%, Terminal-Bench 2.1 67.0%, costo input 3.00, costo output 15.00
- Opus 4.8: SWE-bench Pro 69.2%, Terminal-Bench 2.1 82.7%, costo input 5.00, costo output 25.00
L'introduzione di Sonnet 5 è gratuita a partire da $2.00 per l'input e $10.00 per l'output fino al 31 agosto 2026.
Applicazioni concrete
Rakuten
Le squadre tecnologiche di Rakuten hanno implementato Sonnet 5 per gestire pull requests complessi. Il sistema ha elaborato ciascun invio autonomamente, eseguendo i test e verificando i risultati prima di presentare il codice ai tecnici incaricati dell'approvazione strutturale finale.
Zapier
La piattaforma per l'automa delle informazioni Zapier ha integrato il modello nelle proprie attività principali per gestire compiti amministrativi multistep. Negli esempi registrati, gli sviluppatori hanno istruito il modello all’aggiornamento automatico dei livelli aziendali in Salesforce e la successiva generazione e trasmissione di comunicati ufficiali. I modelli precedenti si bloccavano frequentemente durante queste operazioni, ma il nuovo modello ha eseguito l'intero processo senza intervento umano.
Zed
Zed ha sfruttato il modello per automatizzare procedure complesse di debug. Durante test interni, gli ingegneri hanno incaricato il modello di esaminare un determinato bug di programma. Il sistema ha autonomamente generato uno script per riprodurre il problema, applicato la correzione necessaria e salvato le modifiche per verificare il bug in assenza di questa modifica. L'intera sequenza, daagnostica a risoluzione, si è conclusa in un'unica fase di elaborazione.
Factory
La piattaforma di sviluppo Factory ha adottato il modello per gestire operazioni sostenute all'interno di ambienti complessi. I team hanno notato che il modello mantiene un'elevata consistenza logica e nell'esecuzione attraverso diversi repository di codice dell'azienda, superando in efficienza le generazioni precedenti completando compiti che si interrompevano o fallivano con modelli precedenti.
Evaluation di sicurezza
Analisi dei rischi e controllo di accesso
I dati forniti da una mappa formale mostrano che queste capacità di autonomia vengono raggiunti senza un aumento corrispondente dei rischi di sicurezza. Audit automatizzati sul comportamento del modello per verificare tendenze ingannevoli e collaborazione con richieste non autorizzate hanno rivelato una riduzione nella frequenza di comportamenti non conformi rispetto al predecessore diretto, Sonnet 4.6.
Assenza di capacità avanzate di hacking
- L'architettura non possiede capacità avanzate offensive di cybersecurity. Gli ingegneri di Anthropic hanno escluso set di dati specializzati su cybersecurity delladdestramento, limitando il modello a compiti tecnici difensivi.
- Test condotti con Mozilla hanno testato la capacità del modello di creare exploit funzionanti per vulnerabilità note nel Firefox browser 147.
- Il modello non è riuscito a generare alcun exploit funzionale