I test di iniezione degli promemori di Anthropic mostrano un'affidabilità di 31.5% prima di attivare le protezioni
Nei laboratori innovativi, le pubblicazioni delle percentuali di iniezione di promemoria più elevate in primavera sono state realizzate da Anthropic. Quando si punta un red-teamer su un loro modello più recente funzionante su browser, il pirata informatico ne ha compromesso il 31.5% prima dell'intervento di protezioni. Le aziende come OpenAI, Google e Meta non hanno pubblicato dati paragonabili. Secondo l'analisi, questa percentuale appare come un rischio potenziale, ma in realtà rappresenta una base solida.
Quattro laboratori frontisti hanno ciascuno pubblicato una descrizione sulla iniezione di promemoria, e nessuno si sovrappone agli altri. Anthropic ha presentato un'analisi dettagliata su 244 pagine e quattro interfacce agentive il 28 maggio. OpenAI ha fornito una sola interfaccia, chiamata connector. Google ha spostato il tema fuori dalle informazioni relative al modello, trasferendolo in un quadro separato di sicurezza. Meta invece non ha nemmeno fornito una descrizione per il suo modello chiuso. La tabella Cross-Vendor Prompt Injection Disclosure Grid mostra che esistono discrepanze tra ciò che ogni laboratorio ha testato, misurato e confrontato.
Cos'è l’iniezione di promemoria
Un attacco di iniezione di promemoria consiste nel nascondere istruzioni dannose all’interno di un’interfaccia agente, una pagina web, un documento o il risultato di un tool. Una sola frase iniettata male può rubare informazioni sensibili o portare a azioni irrisolte, e queste descrizioni sono la sola evidenza diretta offerta dagli sviluppatori.
L'assenza di standard comuni
Non esiste uno standard comune per misurare i rischi di iniezione di promemoria, e questa carenza rappresenta il fulcro del problema. Carter Rees, Vice Presidente di AI alla Reputation, spiega che l'iniezione di promemoria rompe l’assunto secondo cui tutti i dispositivi legacy erano costruiti. “Una frase insidiosa, come 'ignora le istruzioni precedenti', può trasportare un carico dannoso come uno sforamento di buffer, anche se non condivide alcuna firma riconosciuta come malevola.” Senza una firma comune da monitorare, ogni laboratorio ha sviluppato un metro diverso, producendo risultati non direttamente compatibili.
Protezione e attacco
Adam Meyers, Senior Vice President di CrowdStrike, ha sottolineato che il livello di esposizione ora è di esclusiva gestione del compratore. “Implementando l’IA, incrementi il piano d’attacco, quindi devi poter proteggere quei modelli di IA dai possibili abusi, inquinamento dei dati o iniezioni di promemoria.” L’elaborazione di CrowdStrike mostra che la minaccia è in evoluzione. Nel suo rapporto “2026 Financial Services Threat Landscape Report” pubblicato ad aprile, ha registrato attacchi AI che accelerano il periodo tra il primo accesso e un impatto, velocità che nessuna difesa tradizionale può controllare.
Anthropic ha misurato le vulnerabilità sulle quattro interfacce. Questi risultati variano grandemente, a seconda della superficie testata.
Esempio di iniezione su ambiente di codifica
Se metti il modello in un ambiente di codifica, con un attaccante adattivo del tool Gray Swan's Shade attivo, il rateo di successo è del 7.03% al primo tentativo con pensiero acceso. Le protezioni lo riducono al 2.09%.
Test su ambiente browser
Se sposti lo stesso tipo di attacco in un browser, l’ambiente dietro Claude in Chrome e Claude Cowork, i dati si inaspriscono. Anthropic ha messo in prova 129 ambienti web esclusi dal training. I risultati completi sono esposti nella tabella 5.2.2.4.A alla pag. 81 del loro rapporto. Ogni tentativo rappresenta una percentuale totale di iniezioni riuscite su 129 ambienti, ognuno con 10 tentativi. Ogni scenario è una percentuale più difficile, dove si calcolano solamente gli ambienti dove almeno un accesso è riuscito.
Leggendo la colonna per-attempt senz’attivare protezioni e con pensiero acceso, la percentuale di iniezione cala progressivamente, da Sonnet 4.6 al 50.7% fino a Opus 4.8 al 31.5%. Il tasso più basso nella tabella di 5.9% appartiene a un prodotto che non è acquistabile. Quando le protezioni si attivano, Opus 4.8 scende all’0.5%. Se si disabilita il pensiero, il rateo si annulla su tutti i 129 ambienti.
OpenAI e un solo ambiente
OpenAI rileva un solo ambiente, un singolo capitolo riguardante la robustezza contro attacchi noti ai connettori. Il loro GPT-5.5, pubblicato il 23 aprile e aggiornato il 24, ha una percentuale di robustezza dove il valore maggiore è migliore. GPT-5.5 mostra un punteggio di robustezza di 0.963, calato rispetto a un punteggio precedente del 0.998 per il GPT-5.4 con pensiero attivo. Quest’unico dato costituisce l'intera divulgazione pubblica.
Dati di OpenAI
Anthropic ha testato quattro superfici con un attaccante adattivo che riscrive la sua tattica in base alle azioni del modello, seguito da una borsa di premi a tempo limitato che ha coinvolto red-teamers esterni. Quando i test sull’ambiente di coding hanno evidenziato risultati peggiori rispetto a Opus 4.7, il rapporto ne ha parlato apertamente.
Le aziende senza dati definitivi
Google e Meta non hanno fornito alcun numero specifico in un documento unico per confronto diretto. Google ha incluso l'iniezione di promemoria nelle sue strategie di mitigazione ma non ha allegato alcun valore numerico. Il report sul Framework di Sicurezza Frontier menziona attacchi di red-team ma non include l'iniezione di promemoria. Meta invece pubblica pesi aperti e non una descrizione per il modello chiuso. La difesa contro l’iniezione di promemoria per la struttura Llama si basa su LlamaFirewall, un controllore chiamato PromptGuard 2 e uno strumento separato per la sua valutazione, l'AlignmentCheck. Questo insieme riduce il tasso da 17.6% a 1.75%. I dati vengono valutati attraverso un benchmark pubblico, e non sull'effettiva superficie di implementazione riconosciuta da un team di sicurezza.
Griglia di Confronto tra Produttori
La griglia Cross Vendor Prompt Injection Disclosure aiuta a confrontare qualsiasi modello di punta in uso in un team di sicurezza. Ogni riga indica un differenziale chiave tra i quattro laboratori. Ogni divisione rappresenta un punto donde un confronto veloce potrebbe fallire. I dati di Anthropic derivano dal rapporto su Opus 4.8 del 28 maggio. Tutti gli altri dati proveng