La ragione per cui i modelli linguistici più grandi acquisiscono competenze che quelli piccoli non riescono a imparare

The Decoder (EN) 7 giugno 2026

i modelli linguistici di grandi dimensioni apprendono abilità che quelli di piccole dimensioni non riescono a imparare

Uno studio recente suggerisce che al posto di aumentare continuamente le dimensioni dei modelli, potrebbe essere più efficiente aumentare la frequenza delle specifiche compiti nel dataset di formazione, al fine di integrare abilità rare in modelli di piccole dimensioni.

Uno studio di ricerca condotto da ricercatori di Anthropic, Stanford e altre istituzioni chiarisce perché i modelli linguistici più grandi imparano determinate attività che i modelli più piccoli non riescono a padroneggiare. Le conclusioni vanno oltre l’idea comune che i modelli più grandi imparino velocemente.

In alcuni casi, i modelli più piccoli non riescono a imparare abilità rare néppure con sessioni molto lunghe di formazione. Anche le normali leggi di scalabilità mostrano che un modello piccolo non riesce mai a raggiungere le prestazioni di un modello più grande, indipendentemente da quanta informazione venga fornita.

compiti frequenti spingono via quelli rari

Per isolare il meccanismo in questione, i ricercatori hanno testato un insieme di compiti con varie frequenze e complessità. Un modello dotato di N neuroni assegna le N “più utili” tra le caratteristiche, dove l’utilità dipende da quanto spesso compara un compito e da quanto è importante. I compiti frequenti e semplici prendono la priorità; quelli rari e complessi vengono esclusi. Nei test, soltanto i modelli abbastanza grandi riuscivano a imparare attività che costituivano solo lo 0.25 percento del dataset di formazione.

Un modello con N neuroni seleziona le N features più utili, ma i modelli più grandi riescono anche a includere i compiti rari che si trovano dopo nella lista. | Immagine: Huang et al.

la dimensione è il fattore chiave

Il cuore del lavoro sta nella spiegazione del perché la grandezza aiuta. Finché i compiti frequenti non sono appresi sufficientemente, si esercita un forte attrazione su di loro ad ogni passo di training, sovrascrivendo molte delle informazioni acquisite sulle tasks più rare. Quando un modello più grande ha acquisito quasi del tutto i compiti comuni, questa forza diminuisce. La sua capacità è così libera di occuparsi dei compiti rari e le informazioni imparate restano più stabili.

I modelli di piccole dimensioni, invece, raramente raggiungono questo punto. Si immergono in un ciclo “aggiorna e dimentica”, durante il quale un esempio raro viene imparato appena per essere quasi completamente rimosso nei passi successivi del training con compiti frequenti. Quando appare un esempio raro successivo, il modello ricomincia da capo.

un esperimento per isolare l’effetto

Un esperimento progettato mira a separare questo effetto. La frequenza totale di un compito raro rimane costante, ma la distanza tra un’osservazione e l’altra varia. Più grande è questa distanza, più il segnale decade nei modelli stretti. I modelli più ampi mantengono meglio l’informazione tra le osservazioni e ne costruiscono un’immagine più precisa.

modelli linguistici comuni mostrano lo stesso modello

Per testare questa teoria durante la fase di pre-addestramento, il team ha addestrato i modelli OLMo dagli 4 milioni ai 4 miliardi di parametri, utilizzando fino a 210 miliardi di token del corpus Dolma. Hanno incluso due compiti artificiali nei dati: il confronto numerico e l’addizione modulare, con frequenze che vanno da circa mille esempi per batch a un esempio ogni dieci batch.

Nella riga centrale, tutti i modelli ricevono lo stesso segnale chiaro (picchi) in corrispondenza dell’attività. Nella riga inferiore, la differenza è marcata: nel modello piccolo da 20 milioni di parametri (viola), l’addestramento linguistico continua a fornire input casuali ed a interferire con il segnale. Nei modelli più grandi (300M e 1B), la riga rimane vicina a zero, lasciando il segnale intatto. | Immagine: Huang et al.

Solo i modelli OLMo più grandi hanno assimilato i compiti rari, apprendendone le regole e applicandole a nuovi casi, invece di memorizzare semplicemente singoli esempi. Questo è stato particolarmente evidente nell’addizione modulare, dove i ricercatori hanno osservato il cosiddetto fenomeno della “comprensione”.

un momento di comprensione

Un modello memorizza un task inizialmente, ma in seguito, dopo ulteriore addestramento, capisce improvvisamente il principio sottostante. Solo i modelli più grandi hanno avuto quel momento cruciale, ma solo quando il compito era abbastanza frequente nei dati.

esaminare i modelli

Gli osservatori all’interno dei modelli riferiscono la stessa storia. Nei modelli da 1 miliardo di parametri, ogni passo di addestramento che includeva un compito raro spingeva chiaramente verso la risposta corretta. Nei modelli da 20 milioni di parametri invece, quel segnale era completamente sommerso dal rumore derivante da ogni altra informazione. Era quasi impossibile per loro apprendere davvero.

la memorizzazione come passo fondamentale

Per il team di ricerca, la memorizzazione non è un effetto collaterale negativo ma è un prerequisito per l'apprendimento generale. Un modello deve tener fede alle singole osservazioni abbastanza da permettere che un modello più ampio prenda forma attraverso diversi batch di dati.

Questo risultato offre una valida alternativa all’aumentare le dimensioni dei modelli. Invece di estendere la grandezza, è possibile incrementare la frequenza degli specifici compiti nel dataset di formazione per fissare meglio una specifica abilità, consiglia lo studio.

teorie alternative

Più di una teoria cerca di spiegare perché la dimensione aiuta. A maggio, un team del MIT ha collegato le leggi di scalabilità alla geometria del modello, dove modelli più grandi riescono ad archiviare più concetti attraverso sovrapposizione rispetto a quanto la loro dimensione permetterebbe normalmente.

Questa nuova studio parte da un punto diverso, concentrandosi su cosa un modello può effettivamente apprendere da un mix di dati durante l’addestramento. L’antica discussione su se alcune abilità emergano veramente in scatti improvvisi superando una certa dimensione, o se ciò sia soltanto un effetto misurativo, è comunque in atto.

aggiornamenti sull’AI senza iperbole

Iscriviti a THE DECODER per un’informazione su AI non appesantita da sensazionalismo, una newsletter settimanale su AI, il nostro rapporto esclusivo “AI Radar” sei volte all’anno, accesso completo all’archivio e la possibilità di interagire con la comunità.

Iscriviti adesso.

Leggi l’articolo completo.

Leggi l'articolo originale →

← Torna alle news