Lavoro e AI: uno studio rivela che i modelli non concordano sui rischi

AI Italia Blog 11 maggio 2026

Il mercato del lavoro è uno dei terreni su cui si concentrano le attese e le paure più forti legate all'AI. I decisori pubblici vogliono capire quali categorie di lavoratori potrebbero essere sostituite o avere bisogno di sostegno. Le scuole, le università, gli studenti e le famiglie cercano segnali su quali percorsi possano garantire una maggiore tenuta nel medio periodo. Le aziende, dal canto loro, valutano dove investire, quali competenze assumere e quali attività automatizzare.

Su questi interrogativi si è costruito negli ultimi anni un filone di ricerca molto ampio, che prova a misurare l'esposizione di un'occupazione all'AI. Il principio è semplice: ogni mestiere è composto da una serie di compiti e, se una quota crescente di quei compiti può essere svolta o accelerata da sistemi di intelligenza artificiale, quel mestiere risulta più esposto. Il problema, però, è capire con precisione come attribuire quel punteggio.

Per stimare il rischio di sostituzione o trasformazione di un lavoro, gli economisti usano spesso un approccio basato sulle mansioni. Negli Stati Uniti il Dipartimento del Lavoro mantiene un database dettagliato delle attività effettivamente svolte nelle diverse professioni. Un panettiere, per esempio, deve impastare, preparare i prodotti e gestire la cottura. Un analista finanziario valuta bilanci, società, scenari e investimenti. Ogni mestiere può quindi essere scomposto in operazioni concrete.

Limiti dell'approccio basato sulle mansioni

La domanda successiva è: quante di queste operazioni possono essere eseguite meglio, più rapidamente o a costi inferiori da un sistema di AI? Se la quota è elevata, cresce l'esposizione della professione. Se è limitata, il lavoro appare più resistente all'automazione cognitiva. Questo metodo ha avuto un enorme successo perché offre un numero sintetico, facilmente utilizzabile nei report di ricerca, nelle note delle società di consulenza, nei documenti di advocacy e nelle analisi di policy.

Tuttavia, la semplicità del numero nasconde una catena di valutazioni molto più fragile. Il punteggio finale, infatti, dipende da chi decide se un compito sia davvero automatizzabile e da come viene posto il quesito. La ricerca economica ha seguito soprattutto tre strade per costruire questi indicatori.

Strade per costruire gli indicatori

La prima si basa su valutatori umani. Esperti o ricercatori esaminano le mansioni associate a una professione e giudicano in quale misura l'intelligenza artificiale possa svolgerle. È un metodo intuitivo, ma esposto a un margine elevato di soggettività. Persone diverse possono avere opinioni molto diverse sulla stessa attività, soprattutto in una fase in cui le capacità dei modelli cambiano rapidamente.

La seconda strada consiste nei sondaggi rivolti ai lavoratori che già usano strumenti di AI. In questo caso il vantaggio è evidente: si osserva l'uso concreto della tecnologia. Ma anche qui il rischio di distorsione è forte. Chi risponde al sondaggio è spesso un sottoinsieme particolare della forza lavoro: utenti precoci, più digitalizzati, più formati, spesso concentrati in alcuni settori e in alcune grandi aziende. Le loro esperienze non sempre rappresentano l'intero mercato.

La terza via affida direttamente all'AI il compito di classificare quali lavori siano più esposti all'AI. A prima vista è una soluzione efficiente. I modelli linguistici hanno accesso a enormi quantità di testo, conoscono la descrizione delle professioni e possono fornire valutazioni in tempi rapidi. Ma è proprio su questo passaggio che si concentra la critica di un nuovo studio.

Studio sulle divergenze tra modelli di AI

Secondo una ricerca pubblicata lo scorso mese sul sito del National Bureau of Economic Research, gli stessi modelli generativi usati per misurare l'esposizione dei lavori all'AI possono produrre valutazioni molto diverse tra loro. Le economiste Michelle Yin e Hoa Vu della Northwestern University, insieme a Claudia Persico dell'American University, hanno chiesto a tre modelli di intelligenza artificiale quali occupazioni fossero più esposte all'automazione.

I modelli presi in esame erano OpenAI ChatGPT-5, Google Deepmind Gemini 2.5 e Anthropic Claude 4.5. A parità di domanda, le risposte si sono spesso discostate in modo netto. Il dato più significativo è proprio questo: non si tratta di lievi differenze di graduatoria, ma di divergenze che possono cambiare la lettura del fenomeno. In alcuni casi un modello considera una professione altamente vulnerabile, mentre un altro la colloca molto più in basso.

Questo rende più difficile usare quei risultati come base affidabile per decisioni pubbliche o private. Le autrici osservano inoltre che il paper è ancora un working paper e non ha quindi concluso il processo di revisione scientifica tra pari. Ma il punto sollevato resta centrale: se strumenti già entrati nel dibattito pubblico sono meno robusti di quanto si creda, il rischio di errore aumenta proprio nel momento in cui quei numeri iniziano a orientare scelte reali.

Esempi di divergenze

Tra gli esempi citati nello studio c'è quello dei contabili. Claude li ha classificati tra i lavori con un'alta vulnerabilità all'intelligenza artificiale, mentre Gemini ha assegnato alla stessa professione un livello di esposizione molto più basso. Non è una differenza marginale: per un mestiere collocato al centro di molte attività amministrative, fiscali e di reporting, un simile scarto modifica la percezione del rischio di sostituzione.

Disaccordi consistenti emergono anche su figure come i responsabili pubblicitari e gli amministratori delegati. In altre parole, non sono coinvolte soltanto professioni ripetitive o standardizzabili, ma anche ruoli in cui contano giudizio, coordinamento, relazione, responsabilità e decisione strategica.

ChatGPT e Gemini, secondo lo studio, risultano i due modelli più vicini tra loro. Eppure anche in questo caso la convergenza non è piena: le due intelligenze artificiali hanno fornito valutazioni diverse in circa un quarto dei casi. Per un indicatore che pretende di offrire una mappa del rischio occupazionale, una distanza di questa ampiezza non è trascurabile.

Conclusioni

Il nodo è evidente. Se tre modelli di punta non trovano un accordo stabile su quali professioni siano più esposte, il punteggio prodotto da uno solo di essi non può essere trattato come un dato oggettivo. Al massimo, può essere considerato un'indicazione parziale, dipendente dal modello impiegato, dal modo in cui è stato addestrato e dal tipo di utilizzo che gli utenti ne hanno già fatto.

Una parte di queste divergenze dipende dalle differenze strutturali tra i modelli. Architettura, dati di training, istruzioni di sistema e scelte di sviluppo possono spingere un sistema a valutare in modo diverso la stessa attività.

Leggi l'articolo originale →

← Torna alle news