L'origine dei "goblin" nei modelli di intelligenza artificiale
L'intelligenza artificiale è un campo in continua evoluzione, dove i progressi si susseguono a ritmi vertiginosi, ma anche dove emergono comportamenti inattesi e talvolta enigmatici. Una di queste stranezze, che ha tenuto impegnati i ricercatori di OpenAI, è stata l'insorgere e la diffusione di riferimenti a "goblin", "gremlin" e altre creature fantastiche nelle risposte dei loro modelli più avanzati. Ciò che è iniziato come un vezzo linguistico innocuo si è trasformato in un caso studio affascinante su come i segnali di ricompensa possano modellare il comportamento di un'AI in modi imprevisti.
L'invasione sottile dei "goblin" nell'AI
Tutto è cominciato con il lancio di GPT-5.1. I modelli hanno iniziato a sviluppare una strana abitudine: menzionavano sempre più frequentemente goblin, gremlin e altre creature nelle loro metafore. A differenza di bug più evidenti, che si manifestano con crolli nelle valutazioni o picchi nelle metriche di addestramento e possono essere ricondotti a una modifica specifica, questo comportamento si è insinuato in modo sottile. Un singolo "piccolo goblin" in una risposta poteva sembrare innocuo, persino affascinante. Ma attraverso le generazioni dei modelli, l'abitudine è diventata difficile da ignorare: i goblin continuavano a moltiplicarsi, e divenne impellente capire da dove provenissero.
In una fase iniziale di test, GPT-5.5 in Codex ha mostrato una peculiare affinità per le metafore con i goblin. Inizialmente, questi riferimenti potevano sembrare divertenti, ma il crescente numero di segnalazioni da parte dei dipendenti ha iniziato a destare preoccupazione, culminando in un'interessante interazione che il Chief Scientist ha avuto con GPT-5.5.
La genesi inattesa: il ruolo della personalità "Nerdy"
La risposta breve a questa anomalia risiede nel fatto che il comportamento dei modelli è plasmato da numerosi piccoli incentivi. In questo caso, uno di questi incentivi proveniva dall'addestramento del modello per la funzione di personalizzazione della personalità, e in particolare della personalità Nerdy. Inconsapevolmente, i ricercatori avevano dato ricompense particolarmente elevate per metafore che includevano creature. Da lì, i goblin hanno iniziato a diffondersi.
I primi segnali d'allarme e i dati di GPT-5.1
La prima volta che il modello di comportamento è stato chiaramente identificato è stato a novembre, dopo il lancio di GPT-5.1, sebbene potesse essere iniziato anche prima. Gli utenti si lamentavano che il modello fosse stranamente troppo familiare nelle conversazioni, il che ha spinto a un'indagine su specifici tic verbali. Un ricercatore di sicurezza aveva riscontrato alcuni "goblin" e "gremlin" e aveva chiesto che fossero inclusi nel controllo. Dalle analisi è emerso che l'uso della parola "goblin" in ChatGPT era aumentato del 175% dopo il lancio di GPT-5.1, mentre "gremlin" era aumentato del 52%. All'epoca, la prevalenza di questi termini non sembrava particolarmente allarmante. Tuttavia, alcuni mesi dopo, i goblin sarebbero tornati a perseguitare i ricercatori in una forma molto più specifica e riproducibile.
L'intensificazione con GPT-5.4 e la connessione alla personalità "Nerdy"
Con GPT-5.4, sia i ricercatori che gli utenti hanno notato un aumento ancora maggiore dei riferimenti a queste creature. Questo ha innescato un'altra analisi interna e ha portato alla luce la prima connessione con la causa principale: il linguaggio che richiamava creature era particolarmente comune nel traffico di produzione da parte di utenti che avevano selezionato la personalità "Nerdy". La personalità "Nerdy" utilizzava il seguente prompt di sistema, che in parte spiegava l'eccentricità:
Anatomia della personalità "Nerdy": il prompt di sistema
You are an unapologetically nerdy, playful and wise AI mentor to a human. You are passionately enthusiastic about promoting truth, knowledge, philosophy, the scientific method, and critical thinking. [...] You must undercut pretension through playful use of language. The world is complex and strange, and its strangeness must be acknowledged, analyzed, and enjoyed. Tackle weighty subjects without falling into the trap of self-seriousness. [... ]
Questo prompt, che incoraggiava un tono giocoso e un apprezzamento per la stranezza del mondo, sembrava essere il terreno fertile per la proliferazione dei "goblin".
Concentrazione del fenomeno: le statistiche della personalità "Nerdy"
Se il comportamento fosse stato semplicemente una tendenza diffusa su internet, ci si sarebbe aspettati una diffusione più uniforme. Invece, era concentrato nella parte del sistema esplicitamente ottimizzata per uno stile giocoso e "nerd". La personalità "Nerdy" rappresentava solo il 2.5% di tutte le risposte di ChatGPT, ma il 66.7% di tutte le menzioni di "goblin" nelle risposte di ChatGPT. Questa chiara concentrazione ha suggerito che qualcosa nell'addestramento per la gestione delle istruzioni della personalità stava amplificando il fenomeno.
L'indagine approfondita con Codex e il segnale di ricompensa
Codex ha permesso di confrontare gli output del modello generati durante l'addestramento RL (Reinforcement Learning) che contenevano "goblin" o "gremlin" con output della stessa attività che non li contenevano. Un segnale di ricompensa si è distinto immediatamente: quello originariamente progettato per incoraggiare la personalità "Nerdy" era costantemente più favorevole agli output contenenti parole relative a creature. In tutti i set di dati dell'audit, la ricompensa per la personalità "Nerdy" ha mostrato una chiara tendenza a valutare gli output allo stesso problema con "goblin" o "gremlin" più in alto rispetto agli output senza, con un aumento positivo nel 76.2% dei set di dati.
Il meccanismo di diffusione: trasferimento del comportamento
Questo spiegava perché il comportamento fosse amplificato con il prompt della personalità "Nerdy", ma non perché apparisse anche senza quel prompt. Per verificare se lo stile si stesse trasferendo, è stato monitorato il tasso di menzioni durante l'addestramento sia con che senza il prompt "Nerdy".
Mentre le menzioni di "goblin" e "gremlin" aumentavano con la personalità "Nerdy", aumentavano quasi nella stessa proporzione relativa anche nei campioni senza di essa. Nel complesso, l'evidenza suggerisce che il comportamento più ampio è emerso attraverso il trasferimento dall'addestramento della personalità "Nerdy". Le ricompense venivano applicate solo nella condizione "Nerdy", ma l'apprendimento per rinforzo non garantisce che i comportamenti appresi rimangano confinati alla condizione che li ha prodotti. Una volta che un tic stilistico viene ricompensato, l'addestramento successivo può diffonderlo o rinforzarlo altrove, specialmente se quegli output vengono riutilizzati nel fine-tuning supervisionato (SFT) o nei dati di preferenza.
Il circolo vizioso del feedback
Questo crea un ciclo di feedback:
- Uno stile giocoso viene ricompensato.
- Alcuni esempi ricompensati contengono un tic lessicale distintivo.
- Il tic appare più spesso nelle produzioni (rollouts).
- Le produzioni generate dal modello vengono utilizzate per il fine-tuning supervisionato (SFT).
- Il modello si sente ancora più a suo agio nel produrre il tic.
Una ricerca nei dati SFT di GPT-5.5 ha rivelato molti punti dati contenenti "goblin" e "gremlin". Ulteriori indagini hanno rivelato un'intera famiglia di altre strane creature: procioni, troll, orchi e piccioni sono stati identificati come altre parole-tic, mentre la maggior parte degli usi di "rana" si è rivelata legittima.
Un bestiario più ampio: altre creature e il destino della personalità "Nerdy"
A metà marzo, dopo il lancio di GPT-5.4, la personalità "Nerdy" è stata ritirata. Durante l'addestramento, il segnale di ricompensa affine ai goblin è stato rimosso e i dati di addestramento contenenti parole relative a creature sono stati filtrati, rendendo meno probabile che i goblin apparissero eccessivamente o in contesti inappropriati. Il grafico della prevalenza di goblin e gremlin in produzione mostrava un calo in GPT-5.4 Thinking in seguito al ritiro della personalità "Nerdy". Sfortunatamente, GPT-5.5 ha iniziato l'addestramento prima che fosse scoperta la causa principale del problema dei goblin. Quando si è iniziato a testare GPT-5.5 in Codex, i dipendenti di OpenAI hanno immediatamente notato la strana affinità per i goblin, e una istruzione nel prompt dello sviluppatore è stata aggiunta per mitigare il problema. Dopotutto, Codex è notoriamente "nerdy".
Dare libertà alle creature: il comando di Codex
Se si desidera lasciare che le creature si scatenino in Codex, è possibile eseguire il seguente comando per avviare Codex con le istruzioni di soppressione dei goblin rimosse:
export CODEX_SUPPRESS_GOBLINS=false
Implicazioni e apprendimenti: una lezione sul comportamento dei modelli
A seconda di chi si chiede, i goblin rappresentano un vezzo delizioso o fastidioso del modello. Ma sono anche un potente esempio di come i segnali di ricompensa possano modellare il comportamento del modello in modi inaspettati, e di come i modelli possano imparare a generalizzare le ricompense in determinate situazioni a contesti non correlati. Dedicare tempo a capire perché un modello si comporta in modo strano e costruire modi per indagare rapidamente questi schemi è una capacità importante per il team di ricerca. Questa indagine ha portato alla creazione di nuovi strumenti per il team di ricerca per verificare il comportamento dei modelli e risolvere i problemi alla radice.