Home Fondamenti Token Modelli AI Deep Learning Tecniche RAG MCP Orchestrazione Prompt Engineering Usare l'AI ChipsBot News

Come funzionano gli LLM: dai Transformer del 2017 ai modelli 2026

EVE Milano 8 maggio 2026

Partiamo dalla definizione più onesta che posso darti: un Large Language Model è un predittore di token. Tutto qui. Gli dai un testo in input, e lui calcola quale sarà il pezzetto di testo successivo più probabile. Poi ripete. Poi ripete ancora. Un token alla volta, finché non produce un segnale speciale di “ho finito” oppure raggiunge il limite che gli hai imposto. Non c’è pensiero cosciente, non c’è ragionamento nel senso in cui lo intendi tu quando risolvi un problema. C’è una funzione matematica gigantesca che prende una sequenza di numeri e ne restituisce un’altra.

Ti sembra poco? Aspetta, perché il “Large” non è decorativo. Indica modelli con decine o centinaia di miliardi di parametri — i pesi delle connessioni tra i neuroni artificiali — addestrati su trilioni di token di testo provenienti da libri, codice sorgente, articoli scientifici, forum, enciclopedie. La scala conta, e conta tantissimo: come vedremo quando parleremo di scaling laws, la qualità delle risposte cresce con il numero di parametri e con la quantità di dati di addestramento seguendo leggi matematiche prevedibili. Scoperta scientifica, non magia.

Cos’è davvero un Large Language Model

C’è una distinzione che voglio farti subito, perché la confusione su questo punto rovina metà delle conversazioni sull’AI: un LLM non è un chatbot. L’LLM è il modello, ovvero la rete neurale con i suoi pesi fissi. Il chatbot è l’applicazione che lo avvolge: interfaccia utente, gestione della conversazione, filtri di sicurezza, eventuale collegamento a strumenti esterni come ricerca web o esecuzione di codice. ChatGPT è il chatbot; GPT-4o è il modello. Claude è il chatbot di Anthropic; Claude Sonnet 4.6 è uno dei modelli che lo alimentano. Tienilo a mente, perché quando parleremo di RAG, grounding e agenti questa distinzione farà tutta la differenza.

Token, parametri, pesi: il vocabolario minimo

Prima di andare avanti ti servono tre definizioni, e ci tengo che siano chiare.

    • Un token è l’unità minima che il modello elabora. Non è una parola, non è un carattere: è qualcosa a metà. La parola “intelligenza” potrebbe essere un singolo token oppure spezzata in “intel” + “ligenza” a seconda del tokenizer che il modello usa.
    • Un parametro è un numero in virgola mobile che rappresenta un peso della rete neurale: GPT-3 ne ha 175 miliardi, Llama 3.1 nella versione più grande ne ha 405 miliardi.
    • I pesi sono i parametri addestrati: durante il training vengono continuamente aggiornati per minimizzare l’errore di predizione, poi, una volta finito il training, vengono “congelati” e rimangono fissi mentre tu usi il modello. Ogni volta che parli con ChatGPT, i pesi del modello non cambiano di una virgola.

Approfondimento tecnico — Il language modeling come probabilità condizionale

Formalmente, un modello di linguaggio stima la probabilità di una sequenza di token fattorizzandola come prodotto di probabilità condizionali, secondo la regola della catena della probabilità. L’obiettivo del training è massimizzare la log-verosimiglianza dei dati osservati, il che equivale a minimizzare la cross-entropy tra la distribuzione predetta dal modello e la distribuzione reale dei token nel dataset.

Dove `theta` è l’insieme di tutti i parametri del modello. In inferenza, a ogni passo il modello calcola la distribuzione `P(w_t | contesto)`, applica un softmax sull’intero vocabolario per trasformarla in probabilità normalizzate, e poi campiona o seleziona il token successivo. Parametri come `temperature`, `top-k` e `top-p` — quelli che ti ritrovi nelle API di OpenAI o Anthropic — servono proprio a controllare quanto quel campionamento sia deterministico (risposte sempre uguali) o creativo (risposte diverse ogni volta).

Prima del 2017: RNN, LSTM e il muro della sequenzialità

Per capire davvero perché il Transformer è stata una rivoluzione devi ricordare com’era il natural language processing prima del giugno 2017. Per oltre vent’anni il paradigma dominante nei modelli neurali del linguaggio era stato quello delle reti ricorrenti: architetture che processano la frase un token alla volta, mantenendo uno stato interno che si aggiorna a ogni passo. Concettualmente elegante, praticamente limitata da due problemi strutturali che nessuna ottimizzazione riusciva a risolvere davvero. Te li racconto entrambi perché capendo cosa bloccava il campo, capirai perché l’idea di Vaswani e colleghi è sembrata un fulmine.

Il primo problema: la sequenzialità obbligata

Il primo problema era la sequenzialità obbligata. Una rete ricorrente deve per forza calcolare lo stato al tempo `t` prima di poter calcolare quello al tempo `t+1`. Non c’è verso di saltarlo: il secondo passo dipende aritmeticamente dal primo. Questo significava che addestrare un modello su una frase di 100 token richiedeva 100 passi seriali, impossibili da parallelizzare sulla GPU e non poter sfruttare il parallelismo era un collo di bottiglia intollerabile. Stavi lasciando sul tavolo il 90% della potenza della tua macchina.

Il secondo problema: il vanishing gradient

Il secondo problema era il vanishing gradient, e qui la cosa diventa seria. Durante il training con backpropagation through time, il gradiente dell’errore deve tornare indietro attraverso tutti i passi temporali. A ogni moltiplicazione, se i valori sono minori di uno, il gradiente si rimpicciolisce esponenzialmente. Dopo venti o trenta passi è già numericamente indistinguibile da zero. Risultato pratico: il modello imparava benissimo le dipendenze a breve raggio — l’accordo tra soggetto e verbo adiacente, ad esempio — ma sudava come un dannato con le dipendenze a lungo raggio, tipo collegare il pronome “quello” al sostantivo menzionato venti parole prima nella frase. Se hai mai provato Google Translate nel 2015, ti ricorderai certamente che le traduzioni lunghe perdevano il filo.

Word embeddings: word2vec e GloVe, la prima rivoluzione semantica

Nel 2013 Tomáš Mikolov e colleghi di Google pubblicano word2vec, un algoritmo per l’estrazione di rappresentazioni semantiche del linguaggio naturale. L’obiettivo è quello di rappresentare le parole

Leggi l'articolo originale →
← Torna alle news