Le radici — Turing e le macchine pensanti (1936–1955)
La storia dell'AI non comincia con un computer ma con un'idea matematica. Nel 1936 Alan Turing pubblica “On Computable Numbers”, in cui descrive una macchina universale in grado, in linea di principio, di calcolare qualsiasi cosa fosse calcolabile. È il modello teorico di ogni computer moderno e — per chi vorrà trarne le conseguenze quindici anni dopo — la prima volta in cui si pensa seriamente che il pensiero potrebbe essere una forma di computazione.
Nel 1943, in piena guerra mondiale, Warren McCulloch e Walter Pitts pubblicano “A Logical Calculus of the Ideas Immanent in Nervous Activity”: il primo modello matematico di un neurone artificiale. Il loro neurone è binario, riceve input pesati, somma, applica una soglia e produce 0 o 1. È un'astrazione brutale del neurone biologico, ma sufficiente per dimostrare che reti di queste unità possono calcolare qualsiasi funzione logica. La connessione è suggestiva: il cervello è una rete di unità computazionali, quindi il pensiero potrebbe essere riprodotto.
Nel 1948 Norbert Wiener pubblica Cybernetics, fondando il campo della cibernetica: lo studio dei sistemi di controllo e comunicazione in animali e macchine. La cibernetica e la nascente AI condividono la stessa intuizione — macchine come sistemi che processano informazione — ma divergeranno su tutto il resto.
Poi arriva il momento fondativo. Nel 1950 Turing pubblica su Mind il paper “Computing Machinery and Intelligence”. Apre con una domanda: “Can machines think?”. Riconosce subito che è mal posta — cosa vuol dire “pensare”? — e la sostituisce con un test operativo: il gioco dell'imitazione. Un giudice umano dialoga via tastiera con due interlocutori, uno umano e uno macchina; se non riesce a distinguerli, la macchina ha passato il test. Per oltre 70 anni questo test è rimasto la metrica popolare dell'intelligenza artificiale, ed è stato passato in modo convincente per la prima volta solo nei primi anni 2020.
Analogia da tenere a mente: la storia dell'AI è come la storia dell'aviazione. I primi tentativi di volo imitavano gli uccelli — ali sbattenti, struttura organica. Sono falliti tutti. I fratelli Wright hanno vinto quando hanno smesso di imitare la biologia e hanno cercato i principi del volo (portanza, controllo). Il volo è come gli uccelli quanto serve, e non di più. L'AI ha fatto lo stesso percorso: per decenni si è cercato di simulare il cervello, poi si è smesso e si sono cercati i principi della computazione dietro l'intelligenza. ChatGPT non funziona come il cervello più di quanto un Boeing 747 funzioni come un albatro. Funziona perché cattura un principio — la predizione del prossimo token su un mare di testo — che il cervello biologico non implementa così.
Dartmouth 1956 — il battesimo dell'AI
Nell'estate del 1956, presso il Dartmouth College nel New Hampshire, si tiene un workshop di otto settimane organizzato da quattro figure che diventeranno leggendarie: John McCarthy (che conia il termine Artificial Intelligence), Marvin Minsky, Claude Shannon (l'inventore della teoria dell'informazione) e Nathaniel Rochester (IBM). La proposta di workshop, scritta a quattro mani nell'agosto 1955, contiene una frase che oggi sembra spavalda fino al ridicolo:
“We propose that a 2 month, 10 man study of artificial intelligence be carried out [...]. The study is to proceed on the basis of the conjecture that every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it.”
Due mesi, dieci persone, e l'intelligenza generale risolta. Ovviamente non è andata così. Ma il workshop di Dartmouth è il punto in cui un manipolo di matematici e ingegneri si guarda intorno e decide: questo è un campo. Ha un nome. Avrà le sue riviste, i suoi laboratori, le sue domande. Allen Newell e Herbert Simon, che già nel febbraio 1956 a Dartmouth presentano il Logic Theorist — un programma che dimostra teoremi matematici dei Principia Mathematica di Russell e Whitehead — sono considerati gli autori del primo vero programma di AI funzionante.
Da Dartmouth in poi, per quasi vent'anni, il paradigma simbolico domina il campo. L'idea di fondo: l'intelligenza è manipolazione di simboli secondo regole logiche. Costruisci un sistema con i simboli giusti (fatti, oggetti, relazioni), dotato delle regole giuste (inferenza, ricerca, deduzione), e otterrai comportamento intelligente. È il sogno di Leibniz reso operativo dai computer.
La prima stagione d'oro (1956–1973)
Sono diciassette anni di euforia, finanziamenti generosi (soprattutto DARPA), e annunci spettacolari. Vale la pena ricordare alcune delle pietre miliari, perché ognuna definisce un sotto-campo che esiste ancora oggi.
1958 — Perceptron. Frank Rosenblatt, psicologo a Cornell, costruisce il primo neurone artificiale fisico: una macchina con potenziometri e fotocellule che apprende a classificare immagini semplici (cerchi vs quadrati). Il New York Times titola: “Electronic Brain Teaches Itself”. Rosenblatt promette al pubblico macchine che capiscono il linguaggio, traducono, riconoscono volti. È il punto di partenza del paradigma connessionista (apprendere dai dati invece che programmare regole), e per molti decenni resta in minoranza rispetto al simbolico.
1959 — il termine “Machine Learning” compare per la prima volta in un paper di Arthur Samuel su IBM, che descrive un programma che impara a giocare a dama migliorando con l'esperienza.
1965 — ELIZA. Joseph Weizenbaum al MIT scrive il primo chatbot. ELIZA finge di essere uno psicoterapeuta rogeriano: prende quello che dice l'utente, lo trasforma con qualche regola sintattica, lo restituisce come domanda. (“Mia madre mi odia” → “Perché pensi che tua madre ti odi?”). È un programma di trecento righe, eppure le persone — inclusa la segretaria di Weizenbaum — sviluppano un legame emotivo con la macchina. È la prima volta che si osserva quello che oggi chiamiamo ELIZA effect: gli umani attribuiscono comprensione a sistemi che ne sono privi.
1966 — Shakey. SRI International costruisce il primo robot mobile in grado di ragionare sulle proprie azioni. Naviga in stanze, sposta oggetti, pianifica percorsi. Lentissimo, fragilissimo, ma il principio — integrare percezione, ragionamento, azione — è quello di tutti i robot odierni.
1969 — Perceptrons. Marvin Minsky e Seymour Papert pubblicano un libro intitolato semplicemente Perceptrons, in cui dimostrano matematicamente che il perceptron a singolo strato non può imparare la funzione XOR. La dimostrazione è corretta e ristretta a quel modello specifico, ma viene letta dalla comunità come una condanna generale dell'approccio connessionista. I finanziamenti per le reti neurali si prosciugano. Rosenblatt muore in un incidente nautico nel 1971, a 43 anni, mentre il suo programma di ricerca è in collasso. La rivincita del connessionismo arriverà quasi vent'anni dopo.
Il primo AI winter (1973–1980)
Le promesse del primo decennio si scontrano con la realtà. La traduzione automatica, finanziata pesantemente dal governo USA per la Guerra Fredda, produce risultati comici. Il rapporto ALPAC del 1966 e poi il rapporto Lighthill del 1973 (commissionato dal governo britannico) sono devastanti: l'AI non ha mantenuto le promesse, non c'è ragione di continuare a finanziarla. DARPA taglia i fondi sui progetti speculativi e li concentra su applicazioni a breve termine. Inizia il primo AI winter.
Cosa è andato storto, retrospettivamente? Tre cose. Primo, il problema della combinatorial explosion: la ricerca simbolica funziona su problemi giocattolo (scacchi semplificati, Tower of Hanoi), ma esplode appena la complessità cresce. Secondo, il problema della conoscenza di senso comune: per fare cose elementari servono milioni di fatti elementari che nessuno ha codificato. Terzo, l'hardware era ridicolmente sottodimensionato — un PDP-10 degli anni '70 fa una frazione di quello che fa uno smartphone di oggi.
L'era degli expert system (1980–1987)
Negli anni '80 l'AI rinasce in una forma più modesta e più commercialmente sensata: gli expert system. L'idea: invece di costruire una macchina che pensa in generale, codifica la conoscenza specifica di un esperto umano (un medico, un ingegnere, un geologo) sotto forma di regole IF...THEN, e usa un motore di inferenza per applicarle.
| Sistema | Anno | Dominio | Impatto |
|---|---|---|---|
| DENDRAL | 1965– | Chimica organica | Primo expert system della storia, identifica strutture molecolari |
| MYCIN | 1976 | Diagnosi infezioni | ~600 regole, accuratezza pari a medici esperti su test, mai usato in pratica |
| XCON (R1) | 1980 | Configurazione VAX (DEC) | $40M risparmiati l'anno, primo expert system industriale di successo reale |
| PROSPECTOR | 1979 | Esplorazione mineraria | Identifica un giacimento di molibdeno da $100M |
XCON — usato da Digital Equipment Corporation per configurare i sistemi VAX in base agli ordini dei clienti — è il primo expert system che genera dollari reali. Per qualche anno sembra che l'AI abbia finalmente trovato la sua nicchia. Giappone lancia il Fifth Generation Computer Project (1982) con 850 milioni di dollari di budget. Aziende come Symbolics e LMI vendono macchine LISP dedicate.
Poi, di nuovo, il crollo. Gli expert system si rivelano fragili: funzionano benissimo dentro il loro dominio strettissimo, falliscono catastroficamente appena se ne esce. Manutenere migliaia di regole è un incubo — aggiungerne una può rompere il comportamento su tutte le altre. Il knowledge bottleneck — il costo di codificare manualmente la conoscenza esperta — non scala. Le macchine LISP costano una fortuna mentre i workstation Unix generici diventano economici e potenti. Tra il 1987 e il 1993 il mercato degli expert system collassa. Inizia il secondo AI winter.
La lenta rinascita statistico-probabilistica (1990–2010)
Mentre il pubblico si dimentica dell'AI, sotto traccia qualcosa cambia. Il campo si rifonda sui dati e sulla statistica. Tre eventi simbolici scandiscono il periodo.
1986 — backpropagation. Geoff Hinton, David Rumelhart e Ronald Williams pubblicano “Learning Representations by Back-Propagating Errors”, mostrando come addestrare reti neurali a più strati propagando l'errore all'indietro lungo la rete. L'algoritmo era stato derivato indipendentemente almeno tre volte negli anni precedenti (Werbos 1974, Parker 1985, Rumelhart 1986), ma è nel 1986 che diventa noto. È il pezzo mancante per superare la critica di Minsky-Papert. La rivincita dei connessionisti, però, rimane lenta perché le macchine sono troppo deboli per addestrare reti profonde su dati grandi.
1997 — Deep Blue batte Kasparov. IBM porta a New York un computer da 11.4 GFLOPS dedicato agli scacchi. Sei partite, vittoria di Deep Blue 3.5–2.5. È il momento in cui il grande pubblico si rende conto che le macchine hanno sorpassato gli umani in quello che era considerato la quintessenza del pensiero. Tecnicamente Deep Blue è un sistema simbolico tradizionale (alpha-beta search + valutazione euristica scritta da grandi maestri), non è AI nel senso moderno. Ma psicologicamente sblocca un'idea: la macchina può battere il campione del mondo.
1997 — LSTM. Sepp Hochreiter e Jürgen Schmidhuber pubblicano “Long Short-Term Memory”, un'architettura ricorrente che risolve il vanishing gradient problem e permette di addestrare reti su sequenze lunghe. LSTM dominerà il NLP per due decenni, fino all'arrivo dei Transformer nel 2017.
Gli anni 2000 sono gli anni del machine learning statistico: Support Vector Machines (Vapnik), Random Forests (Breiman 2001), Boosting (Freund & Schapire, poi XGBoost). Funzionano benissimo su dati strutturati, sono interpretabili, scalano. Le reti neurali sono ancora marginali in molti dipartimenti universitari. Hinton e i suoi (Yann LeCun a NYU, Yoshua Bengio a Montréal) restano fedeli al connessionismo ma sono considerati eretici.
2006 — il primo crepaccio. Hinton pubblica “A Fast Learning Algorithm for Deep Belief Nets”, mostrando come pre-addestrare reti profonde strato per strato in modo non supervisionato. Coniano il termine deep learning. La rinascita ha un nome, ma serve ancora qualcosa per esplodere.
2012: AlexNet e la rivoluzione del deep learning
L'evento che spacca la storia in due si chiama ImageNet Large Scale Visual Recognition Challenge. ImageNet è un dataset di 14 milioni di immagini etichettate, creato da Fei-Fei Li nel 2009. La challenge annuale chiede ai partecipanti di classificare 1.2 milioni di immagini in 1000 categorie. Fino al 2011 il leader era a circa 25% di errore top-5, e i miglioramenti anno su anno erano frazioni di punto.
Nel 2012 due studenti di Hinton a Toronto, Alex Krizhevsky e Ilya Sutskever, presentano AlexNet: una rete convoluzionale profonda addestrata su due GPU NVIDIA GTX 580 nel cameretta da letto di Krizhevsky. Risultato: 15.3% di errore. Il secondo classificato è al 26.2%. È uno scarto inaudito in ML.
Dal 2012 in poi, ogni anno della ImageNet challenge è vinto da una rete profonda sempre più grande. VGG (Oxford, 2014), GoogLeNet (Google, 2014, introduce gli inception module), ResNet (Microsoft, 2015, introduce le skip connection e arriva a 152 strati con 3.6% di errore — sotto la performance umana). Nel 2015 ImageNet smette di essere un benchmark interessante: il problema è risolto.
Nel frattempo nascono altre innovazioni storiche. 2014 — GAN: Ian Goodfellow propone le Generative Adversarial Networks, una coppia di reti che imparano l'una contro l'altra a generare immagini realistiche. 2014 — Word2Vec: Tomas Mikolov a Google mostra come rappresentare le parole come vettori densi che catturano la semantica (re − uomo + donna ≈ regina). È il primo embedding moderno, e diventerà la base dell'NLP.
2016 — AlphaGo. DeepMind (acquisita da Google nel 2014) costruisce un programma di Go che batte il campione mondiale Lee Sedol 4–1 a Seul. Go era considerato “l'ultimo bastione” degli umani perché il fattore di ramificazione è ~250 vs ~35 degli scacchi, rendendo impossibile la pura ricerca alpha-beta. AlphaGo combina deep learning (policy network e value network) con Monte Carlo Tree Search. È il momento in cui anche i ricercatori più cauti capiscono che le reti profonde non sono una moda passeggera.
L'era dei Transformer (2017–2022)
Nel giugno 2017 otto ricercatori di Google Brain pubblicano un paper di otto pagine intitolato “Attention Is All You Need”. Propongono una nuova architettura per la traduzione automatica: il Transformer. La novità principale è eliminare la ricorrenza (LSTM) e basare tutto su un meccanismo di self-attention che permette a ogni token di guardare tutti gli altri in parallelo. Il paper sembra modesto: miglioramenti incrementali sui benchmark di traduzione. In realtà è il big bang dell'AI moderna.
Il vantaggio chiave del Transformer non è tanto la qualità quanto la parallelizzabilità. LSTM addestra una sequenza un token alla volta; Transformer processa tutta la sequenza in parallelo. Su GPU questo significa che puoi addestrare modelli enormemente più grandi su dati enormemente più estesi nello stesso tempo. La porta dello scaling è spalancata.
2018 — due reazioni opposte allo stesso paper. OpenAI prende il decoder del Transformer e lo allena come modello generativo: nasce GPT-1 (117 milioni di parametri). Google prende l'encoder e lo allena con masked language modeling: nasce BERT (110M parametri base, 340M large). BERT polverizza tutti i benchmark NLP nel 2018–2019 e diventa lo standard per tutti i task di comprensione del testo (NER, sentiment, QA estrattiva). GPT-1 invece passa relativamente inosservato — per i prossimi due anni.
2019 — GPT-2. OpenAI scala a 1.5 miliardi di parametri. Il modello genera testo così coerente che OpenAI annuncia di non rilasciarlo per “timori di uso malevolo” (lo rilascerà mesi dopo). È la prima volta che un modello di linguaggio fa parlare di sé fuori dal mondo accademico.
2020 — GPT-3. OpenAI scala a 175 miliardi di parametri. Il paper “Language Models are Few-Shot Learners” mostra una proprietà emergente: il modello impara nuovi task da pochi esempi nel prompt (in-context learning), senza fine-tuning. È un cambio di paradigma: invece di addestrare un modello per ogni task, lo prompti. Per la prima volta gli sviluppatori esterni accedono via API a un LLM potente. Nasce il mondo che oggi conosciamo.
2021 — codice e multimodalità. Codex (OpenAI) genera codice da descrizioni in linguaggio naturale, alimenta GitHub Copilot. DALL-E e poi DALL-E 2 generano immagini da testo. Stable Diffusion (Stability AI, agosto 2022) rilascia un modello text-to-image open source che gira su una GPU consumer. La generative AI si democratizza.
L'era LLM (novembre 2022 — oggi)
Il 30 novembre 2022 OpenAI rilascia silenziosamente ChatGPT: un wrapper conversazionale attorno a GPT-3.5 (versione di GPT-3 affinata con RLHF). Nelle aspettative interne avrebbe dovuto avere qualche migliaio di utenti curiosi. In cinque giorni supera il milione, in due mesi i cento milioni. È il prodotto consumer più veloce a raggiungere quella scala nella storia della tecnologia — davanti a TikTok, Instagram, WhatsApp.
Per la prima volta una tecnologia AI è usata massivamente da persone non tecniche, per scrivere mail, generare codice, fare ricerca, abbozzare contratti, insegnare matematica. Per la prima volta il dibattito sull'AI esce dai laboratori e arriva ai pranzi di famiglia e agli editoriali di prima pagina.
| Data | Modello / Evento | Significato |
|---|---|---|
| Nov 2022 | ChatGPT (GPT-3.5) | Il momento di massa: 100M utenti in 2 mesi |
| Mar 2023 | GPT-4 | Multimodalità (immagini in input), capacità di reasoning |
| Mar 2023 | Claude 1 (Anthropic) | Primo concorrente serio a GPT, focus su safety e constitutional AI |
| Lug 2023 | Llama 2 (Meta) | Primo LLM grande open weights, sblocca l'ecosistema open source |
| Dic 2023 | Gemini 1.0 (Google) | Google entra in campo con un modello multimodale nativo |
| Mar 2024 | Claude 3 Opus | Pareggia o supera GPT-4 in molti benchmark |
| Apr 2024 | GraphRAG paper (Microsoft) | Retrieval strutturato su knowledge graph diventa mainstream |
| Mag 2024 | GPT-4o | Multimodalità nativa (audio, video, immagini) in singolo modello |
| Set 2024 | OpenAI o1 | Test-time compute: il modello “pensa” prima di rispondere |
| Ott 2024 | MCP (Anthropic) | Standard aperto per tool use: gli LLM diventano agenti |
| Gen 2025 | DeepSeek R1 | Reasoning open source competitivo con o1, addestrato a $5M |
| Mag 2025 | Claude 4 / o3 | Convergenza dei lab di frontiera su capability simili |
Il 2023–2025 è il triennio dell'esplosione cambriana dei modelli. Nuovi LLM ogni settimana, nuovi benchmark ogni mese, nuove capacità (agenti, multimodalità, reasoning, tool use, memoria persistente) ogni trimestre. Il campo si muove più veloce di quanto chiunque riesca a seguirlo, e probabilmente di quanto sia sano. I costi di addestramento dei modelli di frontiera passano da decine di milioni a centinaia di milioni di dollari (GPT-4 stimato $100M, Gemini Ultra $200M+). I costi di inferenza, paradossalmente, crollano: GPT-4-class capability nel 2025 costa 100x meno per token rispetto al 2023.
I tre paradigmi che hanno definito l'AI
Settant'anni di storia possono essere letti come l'alternanza e la sintesi di tre paradigmi rivali, ognuno con la propria filosofia su cosa sia l'intelligenza.
Simbolico (GOFAI)
L'intelligenza è manipolazione di simboli secondo regole logiche. Codifichi conoscenza esplicita (tutti gli uomini sono mortali), aggiungi un motore di inferenza, ottieni ragionamento. Punti forti: interpretabile, garantito corretto, bravo con regole. Limiti: non scala, fragile fuori dominio, conoscenza esplicita è costosa. Era dominante: 1956–1990. Esempi: SHRDLU, MYCIN, Prolog.
Connessionista (reti neurali)
L'intelligenza emerge da reti di unità semplici che apprendono dai dati regolando connessioni pesate. Niente regole esplicite: il modello scopre da solo i pattern. Punti forti: scala con dati e compute, riconosce pattern non lineari, robusto al rumore. Limiti: scatola nera, fame di dati, computazionalmente costoso. Era dominante: 2012–oggi. Esempi: AlexNet, BERT, GPT.
Statistico-probabilistico
L'intelligenza è inferenza sotto incertezza: ragiona su probabilità di eventi, aggiorna credenze con nuova evidenza (Bayes). Punti forti: rigoroso, gestisce incertezza esplicitamente, interpretabile. Limiti: richiede assunzioni di distribuzione, scala fatica con feature ad alta dimensionalità. Era dominante: 1990–2010 (con SVM, Random Forest, Boosting). Sopravvive in ML classico (vedi i case studies su scikit-learn).
La storia recente non è un trionfo netto del connessionismo sugli altri due. È piuttosto una sintesi parziale: i grandi LLM contengono dentro elementi di tutti e tre. Il pre-training è connessionista (gradient descent su miliardi di parametri). L'in-context reasoning con chain-of-thought ha sapori simbolici (manipolazione esplicita di simboli intermedi). Il retrieval augmented generation e tool use usano structure simbolica al servizio del modello connessionista. GraphRAG, di cui parliamo in dettaglio qui, è letteralmente l'incontro tra knowledge graph (simbolico) ed embedding (connessionista).
Cosa portarsi a casa
Tre lezioni dalla storia, utili per orientarsi sul presente.
1. La storia dell'AI è ciclica, non lineare. Due AI winter nei primi 50 anni significa che i campi possono sembrare morti per un decennio e poi rinascere. Le reti neurali furono date per morte dopo il 1969 e furono il futuro dal 2012. Stiamo vivendo un'epoca di hype enorme: parte di questo hype si concretizzerà, parte si rivelarà una bolla. Distinguere le due cose richiede conoscere la storia.
2. La scala fa più differenza degli algoritmi. AlexNet vinse non perché aveva un'architettura migliore (era una CNN del 1989 riveduta) ma perché girava su un dataset 100x più grande e su GPU 100x più veloci. GPT-3 funziona non perché ha un'architettura diversa da GPT-2 (è la stessa, Transformer decoder) ma perché ha 100x parametri e 100x dati. Questo è il Bitter Lesson di Rich Sutton, e va preso sul serio: la prossima svolta probabilmente non sarà un nuovo algoritmo, ma una nuova combinazione di scala su dati nuovi (video, mondo fisico, interazioni multi-agente).
3. Il vincitore non lo sa nessuno in anticipo. Negli anni '60 i connessionisti erano una minoranza disprezzata. Negli anni '80 gli expert system sembravano la strada definitiva. Nel 2010 il deep learning era ancora una nicchia. La maggior parte degli esperti del campo, nei rispettivi periodi, ha sbagliato la previsione di lungo termine. Questo dovrebbe rendere umili oggi: anche le predizioni più sicure sul futuro dell'AI (AGI nel 2027? Bolla che scoppia? Plateau?) sono probabilmente sbagliate, e il prossimo decennio ci sorprenderà come tutti i precedenti.
Continua il percorso
Adesso che hai la mappa storica, le pagine successive scendono nei dettagli tecnici dei connessionisti — il paradigma che oggi domina:
- Reti Neurali — dal neurone artificiale al multi-layer perceptron, le fondamenta matematiche
- Backpropagation e Training — come una rete impara davvero, gradient descent e optimizer moderni
- Architetture neurali — CNN, RNN, Transformer: perché servono architetture diverse per dati diversi
- Token e Modelli AI — come i moderni LLM rappresentano il linguaggio
- Deep Learning — i miei progetti didattici — tutta la teoria fin qui, dimostrata in nove progetti Python reali