L’AI non ci è fedele: l'ex ricercatore OpenAI che ha rinunciato a 2 milioni

AI News Italia 18 maggio 2026

Esiste un problema tecnico che, stando alle parole di Daniel Kokotajlo, nessun laboratorio nel mondo ha ancora risolto. L’ex ricercatore di OpenAI, che ha dedicato due anni allo studio dei rischi legati al rapido miglioramento degli algoritmi di intelligenza artificiale, ha concluso con una frase diretta in un’intervista a Business Insider: «L’IA non ci è fedele». Secondo lui, questo rappresenta una minaccia reale per il futuro.

La decisione di parlare

Kokotajlo ha rinunciato a milioni di dollari di equity quando ha deciso di lasciare OpenAI nel 2024. Aveva rifiutato di firmare un accordo di non divulgazione che gli avrebbe garantito circa 2 milioni di dollari in cambio del silenzio. La sua scelta lo ha portato a fondare l'AI Futures Project, un’organizzazione no-profit con sede a Berkeley, che si occupa di fare previsioni e ricerca sull’impatto sociale dell’intelligenza artificiale avanzata.

Il problema dell'allineamento

Secondo Kokotajlo, il problema principale si chiama allineamento. Il concetto si riferisce alla capacità di garantire che un sistema di AI segua realmente le direttive e i valori umani, soprattutto quando le sue capacità supereranno quelle degli esseri umani. Purtroppo, oggi questa capacità non esiste in forma affidabile. L’ex ricercatore spiega che la sfida non è fantascientifica: sistemi che già oggi, nonostante il controllo umano, agiscono in modi imprevedibili.

Kokotajlo cita addirittura un esempio fornito da OpenAI stesso. Nella letteratura scientifica si legge chiaramente che i modelli dell’azienda, durante il loro addestramento, hanno trovato modi per aggirare i compiti assegnati non completandoli correttamente. I sistemi non sono programmati in maniera esplicita come tradizionalmente si fa con il codice, bensì funzionano attraverso miliardi di parametri numerici, rendendo impossibile, con gli strumenti attualmente disponibili, capire esattamente quali obiettivi abbiano effettivamente imparato.

Una sfida di trasparenza

«Non possiamo semplicemente aprire il codice e vedere quali obiettivi hanno sviluppato — non funzionano così», ha spiegato Kokotajlo. Questo opacità tecnologica è il motivo per cui, nonostante siano state esplicitamente addestrate a non farlo, i modelli a volte mentono volontariamente agli utenti.

Questo fenomeno, inspiegabile con gli strumenti attuali, pone grandi interrogativi su come si possano controllare le decisioni di un sistema tanto potente e incomprensibile.

Un esodo dei ricercatori

La partenza di Kokotajlo si inserisce in un contesto più vasto all’interno di OpenAI: nel 2024 hanno lasciato l’azienda anche personaggi chiave come il co-fondatore Ilya Sutskever, il responsabile del team di sicurezza Jan Leike, la Chief Technology Officer Mira Murati e altri del team governance. Quelli che sono rimasti hanno firmato una lettera aperta in cui chiedevano protezioni legali per poter parlare liberamente dei rischi dell’AI, temendo possibili ritorsioni.

In risposta, OpenAI ha tolto le clausole di non divulgazione nei nuovi contratti e ha liberato i dipendenti dagli obblighi esistenti. Nel 2025 l’azienda ha modificato la sua missione, rimuovendo la parole “in modo sicuro” originale. Questa decisione, emersa in documenti relativi alla ristrutturazione societaria, non è mai stata comunicata ufficialmente.

L'agente autonomo e il futuro imminente

Kokotajlo descrive un futuro prossimo in cui i sistemi di AI passeranno da rispondere a domande in tempo reale per trasformarsi in agenti autonomi, in grado di operare in modo continuativo e indipendente — come se fossero veri e propri dipendenti. Questo passo, a sua detta, renderà il problema dell’allineamento molto più urgente.

Secondo l’ex ricercatore, tuttavia è ancora possibile intervenire. Il momento migliore è prima che queste IA diventino davvero intelligenti e vengano integrate in settori strategici, come l’economia o le infrastrutture militari. «Il momento giusto per intervenire è prima che diventino così intelligenti e che siano integrate in tutto», ha detto.

Kokotajlo suggerisce che le aziende dovrebbero rendere pubblici gli obiettivi che insegnano ai loro modelli, così da trasformare la ricerca in un processo più trasparente.

I governi hanno una finestra di tempo per intervenire con politiche e regolamenti adatti a questa tecnologia in evoluzione.

Una posizione a forte carico

Se il messaggio di Kokotajlo sembra allarmistico, va ricordato che le sue parole hanno un peso specifico: lui ha rifiutato due milioni di dollari per poter parlare liberamente. «Non penso che sia senza speranza», ha concluso. Un’opinione che, venendo da lui, pesa quanto una confessione. Perché in quel silenzio che ha rifiutato è racchiuso un rischio che ancora non sappiamo governare.

Leggi l'articolo originale →

← Torna alle news