Chi addestra i modelli linguistici come assistenti li rende meno umani

The Decoder (DE) 30 maggio 2026

Uno studio internazionale dimostra che i passaggi di training che trasformano modelli linguistici in utili chatbot riducono la loro capacità di ricalcare il comportamento umano in modo significativo. Questo risultato è stato verificato su modelli come Qwen3, Llama3 e OLMo 3, e mostra un effetto crescente con ogni generazione successiva. La ricerca, pubblicata da un consorzio internazionale di ricerca tra cui Helmholtz Munich, utilizza Psych-201, un dataset unico derivato da oltre 26 milioni di risposte umane raccolte da 208.000 partecipanti in centinaia di esperimenti.

Un dataset di dimensioni senza precedenti

Il dataset Psych-201 è il prodotto di una collaborazione aperta a cui hanno partecipato oltre 35 istituzioni diverse. Contiene registrazioni di esperimenti comportamentali completi, completi di dettagli demografici, dati dei questionari e ulteriori attributi. Ogni risposta è annotata in modo ricco, permettendo agli utilizzatori di analizzare l'influenza di vari fattori sulla risposta umana.

Modelli di base vs. modelli istruiti

I ricercatori hanno confrontato modelli linguistici di base, addestrati esclusivamente per prevedere la prossima parola, con le leur versioni istruite ulteriormente, focalizzate su compiti specifici come obbedienza alle istruzioni o ragionamento. In ogni caso, i modelli di base si sono dimostrati più precisi nel prevedere comportamenti umani rispetto alle loro controparti istruite.

L'effetto non è dovuto a un comportamento più deterministico da parte delle versioni istruite. I ricercatori lo hanno verificato effettuando un’analisi dell’accuratezza su compiti con risposte finite. In entrambi i casi, i modelli istruiti hanno peggiorato le loro performance, indicando che la causa principale è un allontanamento dal comportamento naturale umano.

Effetto crescente negli anni

L’allontanamento cresce con ogni nuova generazione. Mentre i modelli di base si migliorano continuamente da Qwen2 a Qwen3, le loro controparti istruite divergono sempre di più dal comportamento reale degli esseri umani. La distorsione è maggiore in compiti linguistici e di ragionamento, aree dove inizialmente i modelli erano più vicini alla mente umana.

Perché si verifica questa distorsione

Modelli di base: rappresentano l'interazione umana con la lingua, per definizione.
Modelli istruiti : sono spostati verso risposte più utili o normativamente corrette, a discapito della fedeltà al comportamento umano.
Training su ragionamento: ottimizza la logica matematica ma ignora le scorciatoie e le regole di convenzione che i veri esseri umani seguono.

Una tecnica comune non funziona

Uno dei metodi di pre-istruzione per rendere i modelli più adatti al ruolo di "partecipanti digitali" è il cosiddetto Persona Prompting, dove al modello vengono forniti dati demografici (età, sesso, nazionalità, istruzione, diagnosi cliniche) per modellarli su un profilo individuale. Questo approccio non ha quasi effetto sull'accuratezza delle previsioni.

L’effetto di questi profili non si è manifestato nemmeno in compiti focalizzati sull'età (dove l'età avrebbe dovuto essere informativa). I risultati sottolineano che anche se i profili riescono a fornire una distribuzione di risposte simili a quelle degli umani, non riescono a replicare veramente il comportamento unico di un individuo.

Una soluzione promettente

I ricercatori hanno testato una versione speciale di modello addestrata specificamente su dati di comportamento, chiamata Centauro. Questo modello mostra una maggiore aderenza al comportamento umano, anche su nuove tipologie di compiti non viste in addestramento. Secondo la ricerca, il modo migliore per simulare il comportamento umano non è il ricorso a chatbot generalisti, ma adottare modelli grezzi o personalizzati appositamente per lo scopo.

Implicazioni pratiche e future

Questi risultati mettono in discussione l'uso sempre più diffuso di chatbot avanzati come "risponditori digitali" in ambiti come la psichiatria, l’educazione o la politica. La ricerca fornisce una base per lo sviluppo avanzato di modelli più fedeli al comportamento umano, con il sottintendo che i modelli di supporto non sono necessariamente i migliori strumenti per compiti comportamentali.

Ecco i principali contributi della ricerca:

La distorsione crescente in modelli istruiti di ultima generazione.
L'incapacità dei prompt personalizzati di replicare fedelmente il comportamento individuale.
I benefici dell'addestramento mirato, come in Centauro, per modellare il comportamento reale dell’uomo.

Un panorama più ampio

Questi risultati rientrano in una serie crescente di studi critici sull’uso di modelli linguistici come simuli umani. Altri esempi di problemi noti sono:

I modelli che sembrano parlare in modo umano non riescono a fornire contenuti corretti, come mostrato da un’analisi su oltre 170.000 “processi di ragionamento”.
L’addestramento su comportamenti simmetrici di apprendimento non produce modelli che riescono a emulare credibilmente studenti forti o deboli, differenziandosi a malapena di un punto percentuale.
Il tuning per “suono umano”, pur migliorando l’aspetto, riduce l’accuratezza di risposte di base.

In sintesi, l’addestramento di modelli linguistici per renderli strumenti utili introduce inevitabilmente una distorsione rispetto al comportamento umano. Mentre questo è accettabile per molti compiti, non può essere trascurato quando l'obiettivo è replicare fedelmente la mente umana in contesti di studio sperimentale.

Leggi l'articolo originale →

← Torna alle news