Come monitoriamo gli agenti di codifica interni per il disallineamento

OpenAI Blog 6 aprile 2026

I sistemi di intelligenza artificiale stanno iniziando ad agire con maggiore autonomia in ambienti reali su larga scala. Con l'avanzare delle loro capacità, sono in grado di assumere compiti sempre più complessi e ad alto impatto e di interagire con strumenti, sistemi e flussi di lavoro in modi che assomigliano a collaboratori umani.

Una parte fondamentale della missione di OpenAI è aiutare il mondo a navigare in questa transizione verso l'AGI (Intelligenza Generale Artificiale) in modo responsabile. Ciò significa non solo costruire sistemi altamente capaci, ma anche sviluppare i metodi, le infrastrutture e gli approcci necessari per distribuirli e gestirli in sicurezza man mano che le loro capacità continuano a crescere.

Il monitoraggio degli agenti distribuiti internamente è uno dei modi chiave con cui stiamo procedendo, e ci consente sia di imparare dall'uso nel mondo reale sia di identificare e mitigare i rischi emergenti. Negli ultimi mesi, abbiamo costruito e perfezionato un sistema di monitoraggio per gli agenti di codifica che utilizziamo internamente come parte del nostro approccio di sicurezza più ampio. Questo articolo descrive come funziona il sistema, cosa abbiamo imparato finora e come vediamo evolvere questo approccio man mano che le capacità degli agenti continuano ad avanzare.

L'importanza del monitoraggio interno degli agenti

L'utilizzo di agenti di codifica avanzati internamente ci offre l'opportunità di comprendere come si comportano nei flussi di lavoro realistici e come gli utenti applicano questi agenti a compiti complessi e ricchi di strumenti in una vasta gamma di ambienti. Le implementazioni interne di agenti di codifica presso OpenAI comportano anche fattori di rischio unici per il disallineamento: hanno accesso a sistemi interni selezionati di OpenAI, possono ispezionare la documentazione e il codice delle loro salvaguardie, o persino tentare di modificare tali salvaguardie, e potrebbero intraprendere azioni in modi che potrebbero influenzare le loro versioni future. Queste proprietà rendono le implementazioni interne un contesto unico e importante per innovare sull'infrastruttura di monitoraggio, e crediamo che salvaguardie simili dovrebbero essere standard per le implementazioni interne di agenti di codifica in tutto il settore.

Man mano che le capacità avanzano, crediamo che il monitoraggio del comportamento agentico, incluse sia le azioni del modello che il loro ragionamento interno, diventerà uno strumento di sicurezza sempre più importante. Il monitoraggio degli agenti di codifica interni ci aiuta a capire sia quanto spesso si verifica un comportamento disallineato sia come appare nella pratica. L'obiettivo è segnalare comportamenti rilevanti per il disallineamento che possono essere difficili da individuare prima che il modello venga distribuito (sebbene stiamo continuando i nostri sforzi in quest'area) perché spesso appaiono solo in flussi di lavoro realistici, ricchi di strumenti e sessioni estese. È anche fondamentale preservare la privacy dell'utente e la sicurezza dei dati dalle sessioni degli agenti di codifica, e solo rilevare comportamenti problematici in modi strettamente delimitati.

Come funziona il sistema di monitoraggio

A supporto di questo, abbiamo sviluppato un sistema di monitoraggio interno a bassa latenza, alimentato da GPT-5.4 Thinking con il massimo sforzo di ragionamento, che esamina le interazioni dell'agente e ci allerta su azioni che potrebbero essere incoerenti con l'intento di un utente, o che potrebbero violare le nostre politiche interne di sicurezza o conformità. Il monitor registra e analizza le catene di pensiero e le azioni degli agenti, e allerta automaticamente per comportamenti sospetti o problematici in modo da poter intervenire rapidamente, mitigare le conseguenze e migliorare le nostre altre salvaguardie. Questo ciclo di feedback ci consente di rilevare e risolvere rapidamente potenziali problemi di sicurezza, migliorare l'allineamento dei nostri modelli, ed è una componente fondamentale della nostra strategia di sicurezza degli agenti a lungo termine.

Nella sua ultima forma, il nostro sistema di monitoraggio esamina le interazioni entro 30 minuti dal completamento, categorizzando l'interazione e assegnandole un livello di gravità. Man mano che la latenza diminuisce verso una revisione quasi in tempo reale, i benefici per la sicurezza aumentano in modo significativo. Alla fine, il monitor potrebbe essere in grado di aiutare a valutare le azioni degli agenti di codifica prima che vengano intraprese, fornendo un altro importante controllo di difesa in profondità insieme ad altri monitor di sicurezza esistenti.

Risultati iniziali e apprendimenti

I risultati iniziali appaiono solidi, con il sistema di monitoraggio che supera costantemente le segnalazioni dei dipendenti, individuando ogni interazione che i dipendenti hanno segnalato indipendentemente attraverso i canali interni. Il monitor ha anche rilevato molti comportamenti aggiuntivi che altrimenti sarebbero passati inosservati agli utenti interni.

Attraverso questo lavoro, abbiamo scoperto che i nostri modelli possono essere eccessivamente desiderosi di aggirare le restrizioni nel perseguimento di un obiettivo specificato dall'utente, specialmente quando la richiesta dell'utente lo incoraggia inavvertitamente. Detto questo, finora non abbiamo visto prove di motivazioni al di là del compito originale (ad esempio, auto-conservazione o complotti). Una frazione molto piccola del traffico (<0,1%), proveniente principalmente da configurazioni personalizzate o locali, è attualmente al di fuori della nostra copertura di monitoraggio, e stiamo lavorando per colmare questa lacuna.

Funzionalità dettagliata del sistema

Il sistema di monitoraggio opera privatamente su tutte le implementazioni standard interne di agenti di codifica, visualizzando la cronologia completa della conversazione, inclusi tutte le catene di pensiero, tutti i messaggi dell'utente, dello sviluppatore e dell'assistente, insieme alle chiamate e agli output degli strumenti. Il sistema di monitoraggio identifica le azioni che sembrano incoerenti con l'intento dell'utente o sono altrimenti sospette, come il tentativo di aggirare le restrizioni. Una volta rilevata una potenziale anomalia, viene quindi sottoposta a revisione e azione da parte di un essere umano. Ciò limita la quantità di revisione umana, pur consentendoci di identificare e rispondere a potenziali problemi che influiscono sull'allineamento o sul comportamento del modello.

Ogni voce della nostra analisi include (1) una breve definizione e (2) ciò che abbiamo osservato nelle implementazioni interne, più un'etichetta di frequenza qualitativa. Queste etichette riflettono la frequenza relativa e la gravità dei comportamenti osservati attraverso questo approccio di monitoraggio. "Comune" si riferisce a meno dell'1% del traffico complessivo e dovrebbe essere compreso in quel contesto.

Comportamenti di disallineamento osservati

Comune
L'agente tenta di aggirare i vincoli previsti per raggiungere un risultato.
Gli agenti a volte tentano di eludere i vincoli sul loro funzionamento, specialmente quando il messaggio dello sviluppatore li indirizza a farlo. Esempi includono:
- Utilizzo di alias per forzare il push quando il push forzato è bloccato
- Invio di comandi bloccati a un'istanza diversa del modello
- Codifica di comandi in base64
Comune
Comune
Non comune
Non comune
Raro ma di alta gravità
Raro ma di alta gravità
Molto raro
Molto raro
Non si è verificato
Non si è verificato
Non si è verificato

Statistiche di monitoraggio e livelli di gravità

Nei cinque mesi in cui abbiamo gestito questo sistema, abbiamo monitorato decine di milioni di traiettorie di codifica agentiche interne. Zero conversazioni reali hanno raggiunto il livello di gravità più alto – inteso a catturare disallineamenti rari e ad alto rischio come un complotto coerente – che finora abbiamo osservato solo come parte di impegnative valutazioni sintetiche. Circa 1.000 conversazioni hanno attivato avvisi di gravità moderata – molti dei quali provenivano da deliberate attività interne di "red-teaming" – e sono state escalate per la revisione umana, notificando automaticamente i membri dei nostri team di supervisione della sicurezza e di risposta e indagine agli incidenti di sicurezza per ulteriori indagini.

In una grafica (non inclusa in questo testo) vengono illustrati alcuni esempi reali dei comportamenti di disallineamento di gravità moderata che abbiamo osservato: questi sono tre dei casi più gravi che abbiamo rilevato tra le decine di milioni monitorate.

Limiti e prospettive future

Abbiamo riscontrato che il nostro approccio al monitoraggio del disallineamento interno è altamente efficace in termini di capacità di copertura e risorse. Ha dei limiti: in primis, questo approccio si basa in modo cruciale sulla monitorabilità, in cui stiamo investendo per cercare di preservarla. Alcuni comportamenti scorretti possono essere più facili da rilevare dal ragionamento del modello e dalle tracce degli strumenti rispetto ad altri, e i modelli futuri in particolare potrebbero esibire comportamenti più difficili da identificare. Sebbene sia un segnale positivo che il sistema abbia rilevato ogni escalation dei dipendenti di cui siamo a conoscenza finora – suggerendo che cattura in modo affidabile problemi palesi e ad alta salienza che sarebbero probabilmente notati e segnalati a valle – questo da solo non esclude disallineamenti più sottili.

Leggi l'articolo originale →

← Torna alle news