Il rischio d'azienda di cui nessuno modella: l'AI sta sostituendo gli esperti di cui ha bisogno per imparare
Perché i sistemi di intelligenza artificiale (AI) continuino a migliorare nel lavoro di conoscenza, ne hanno bisogno di una meccanismo affidabile per autonomamente crescere o di valutatore umani capaci di cogliere errori generando un feedback di qualità alta. L’industria ha investito enormemente nel primo punto. Si dedica quasi nessun pensiero a ciò che capita sul secondo.
Io credo che dobbiamo trattare il problema umano di valutazione con altrettanta rigorosità e investimento quanto ne dedichiamo allo sviluppo delle capacità dei modelli in sé. Le assunzioni di laureati da parte delle grandi aziende tecnologiche sono cadute a metà dal 2019. Revisione di documenti, ricerca di prima passata, pulizia dei dati, revisione del codice: i modelli gestiscono questi adesso. Gli economisti che monitorano questa situazione lo chiamano displacimento. Le aziende che lo fanno lo chiamano efficienza. Nessuna si concentra però sul problema futuro.
I Limiti dell'auto-miglioramento in lavoro di conoscenza
L'obiezione ovvia riguarda l'apprendimento per rinforzo (RL). AlphaZero ha imparato Go, scacchi e Shogi a livelli superumani senza dati umani e ha generato strategie nuovi nel processo, come il 37° mossa nella partita del 2016 contro Lee Sedol, una mossa su cui gli esperti avevano detto non l’avrebbero mai giocata.
Questo emerge non da annotazioni umane, ma dall’autogioco dell’AI. Ciò che permette questa autonomia è la stabilità dell'ambiente. L’ambizione del 37° mossa emerge all'interno di un campo fisso di gioco stabile. Le regole sono complete, non ambigue e permanenti. Ancora più importante, il segnale della ricompensa è perfetto: vinci o perdi, immediatamente, senza room per interpretazioni. Il sistema sa sempre se una mossa ha funzionato perché il gioco finisce con un risultato chiaro.
In ambiti professionali, invece, nessuna di queste qualità vale. Le regole in qualsiasi campo professionale sono dinamiche e continuamente riscritte da coloro che vi si muovono. Nuove leggi vengono promulgate. Nuovi strumenti finanziari vengono inventati. Una strategia legale che ha funzionato nel 2022 potrebbe fallire in una giurisdizione che ha in seguito mutato la sua interpretazione. Se un diagnosi medico è corretto può non essere noto per anni. Senza un ambiente stabile e segnale di ricompensa inequivocabile, non si fa feedback. È necessario mantenere umani all'interno della catena di valutazione per continuare ad insegnare ai modelli.
Il problema della formazione
I sistemi AI che si stavano costruendo oggi sono stati allenati sull’expertise di persone che avevano attraversato esattamente quel tipo di formazione. La differenza adesso è che i lavori di base che sviluppano tale expertise sono stati automatizzati primi. Cioè, la generazione successiva di potenziali esperti non accumula quel tipo di giudizio che rende un valutatore umano degno di essere nel loop.
La storia ci presenta esempi di conoscenze perse. La concrete romana. Le tecniche costruttive gotiche. Le tradizioni matematiche che hanno richiesto secoli per essere recuperate. Ma in tutti i casi storici, la causa era esterna: peste, conquiste, il collasso delle istituzioni che ospitavano la conoscenza. Cioè diverso qui il fatto che non serve alcuna forza esterna. Campi interi possono atrofizzarsi non per un cataclisma ma per mille decisioni economiche individuali, ciascuna in apparenza sensata. Questo è un meccanismo nuovo e non ne abbiamo esperienza nel riconoscerlo mentre avviene.
Quando interi settori diventano silenziosi
Alla logica estrema, non si tratta più solo di un problema di pipeline. È una richiesta di declino per la stessa expertise.
Consideriamo le matematiche avanzate. Non si impoveriscono solo perché smettiamo di formare matematici. Si indeboliscono quando le organizzazioni non necessitano più di matematici per i loro compiti di routine: scompare l’incentivo economico per diventarlo, si riduce la popolazione di coloro in grado di produrre nuovi sviluppi matematici, e il campo perde lentamente la capacità di generare nuove intuizioni. Lo stesso logica applica alla programmazione. La domanda non è più “sposerà l’AI la programmazione?” ma, “Se l'AI scriverà todo il codice per produzione, chi svilupperà l’intuitione architetturale profonda in grado di produrre veri design innovativi di sistemi?”
C'è una differenza cruciale tra un campo automatizzato e un campo completamente compreso. Oggi possiamo automatizzare grandi quantità di engineering strutturale, ma la conoscenza astratta del perché funzioni una certa soluzione esiste solo nella mente di coloro che hanno impiegato anni per sbagliare. Se elimini la pratica, non perdi solo coloro che la praticavano. Perdi la capacità di riconoscere ciò che hai perso.
Limiti delle griglie di valutazione
La prospettiva attuale si basa su griglie di valutazione. AI Constitutional, il rinforzo apprendimento da AI feedback (RLAIF) e criteri strutturati che permettono ai modelli di valutare i modelli sono tecniche serie che riducono significativamente la dipendenza dagli umani valutatori. Non le disconosco.
La loro debolezza è che una griglia può catturare solo ciò che chi l'ha scritta conosce a misurare. Ora ti dedichi ad ottimizzare forte in base ad essa e otterrai un modello che è bravo a soddisfarla. Non è però lo stesso che un modello che sia di fatto corretto.
Le griglie amplificano giudizi espliciti, esprimibili in un piano verbale. Quella sensazione profonda, l’istinto, la sensazione che qualcosa non va non entra in una griglia. Non lo puoi documentare prima, perché lo riconosci solo dopo.
Le implicazioni pratiche
Questa non è un appel a rallegare lo sviluppo. I vantaggi in capacità sono reali. E potrebbe essere che i ricercatori finiscano col chiudere il loop di valutazione senza bisogno di giudizio umano. Forse i pipeline di dati sintetici raggiungeranno livelli sufficienti. Forse i modelli svilupperanno meccanismi di autocorrezione efficienti finora immaginabili.
Non ce l’abbiamo oggi. E nel frattempo, si sta demolendo l’infrastruttura umana che oggi colma il divario, non come decisione deliberata ma come conseguenza collaterale di mille razionali. La versione responsabile di questa transizione non è dare per scontato che il problema si risolva da solo. E’ trattarlo come problema aperto con la stessa urgenza con cui ci diamo a incrementi di capacità.
Ciò che