Modello di diffusione iLLaDA: I ricercatori di ByteDance richiedono la logica parola per parola dell'IA linguistica

The Decoder (DE) 27 giugno 2026

Gli sviluppatori del diffusionsmodel iLLaDA hanno introdotto un modello linguistico diverso dagli standard come ChatGPT: invece di generare testo in modo autoregressivo, token per token da sinistra a destra, utilizza una tecnica di diffusion modeling, in cui una sequenza di tokens mascherati viene perfezionata in parallelo in diverse fasi. Questo meccanismo è simile al funzionamento dei modelli generativi di immagini, che partendo da un rumore vanno a formare un soggetto. Le posizioni all’interno del testo lavorano quindi in modo bidirezionale.

Un approccio diverso al diffusions model

iLLaDA non è unico nel suo genere. Google ha anche rilasciato Deepmind

DiffusionGemma, un modello parallelo. Questo produce un testo quattro volte più velocemente, ma i test hanno mostrato che Deepmind DiffusionGemma ha punteggi più bassi in alcuni benchmark rispetto al suo controparte autoregressivo, Gemma 4. Google consiglia di usare Deepmind DiffusionGemma per applicazioni con latenza limitata invece che per compiti che richiedono qualità elevata.

La differenza di approccio

In termini di differenze, DiffusionGemma è un modello 25B MoE con una versione diversa del modello di generazione, concentrato sulla velocità. iLLaDA invece, abbreviazione di "improved LLaDA", ha adottato un piano alternativo: si è concentrato sull’ottenere risultati di qualità attraverso un modello compatto da 8B e un allenamento rigoroso. Risulta dunque evidente se un diffusions model possa davvero competere con i modelli autoregressivi.

Sebbene non si possa fare un confronto diretto tra i modelli, si può osservare che Google utilizza benchmark differenti e in classi di peso diverse. Per capirne di più, analizziamo i dati specifici del modello iLLaDA.

I risultati conseguiti da iLLaDA

L’équipe di sviluppo ha effettuato un addestramento su 12 trilioni di tokens, rispetto ai 2,3 trilioni utilizzati per il predecessore LLaDA, e ha effettuato 12 epoche di finetuning. Secondo i dati riportati nel paper, il modello base iLLaDA mostra un miglioramento rispetto al predecessore LLaDA, migliorando per esempio del 21,6 punti nel test di ragionamento BBH, con un punteggio medio del 63,9, rispetto a 63,3 di Qwen2.5 7B autoregressivo.

iLLaDA 8B

LLaDA 8B

Dream 7B

Qwen2.5 7B

La tabella seguente mostra i punteggi del modello base.

Model	Diffs	Diffs	Diffs	AR
Model	Training tokens	General tasks (MMLU)	BBH	ARC-C
iLLaDA 8B	12T	74.8	71.3	60.8
LLaDA 8B	2.3T	65.9	49.7	45.9
Dream 7B	18T+0.6T	69.5	57.9	59.8
Qwen2.5 7B	18T	71.9	63.9	51.5

Confronti con i modelli diffusionali concorrenti

D’interesse è anche il confronto con il concorrente diffusions model Dream 7B: Quest’ultimo, non essendo stato allenato da zero ma derivato da un modello di tipo autoregressivo, mostra risultati un po’ inferiori a quelli di iLLaDA. Nonostante non abbia beneficiato della precedente esperienza di un modello potente, iLLaDA supera Dream 7B, sebbene in maniera lieve (63,9 a 61,4). L’unica area in cui il modello concorrente mostra superiorità è in ambito della programmazione.

Il modello di istruzione

Il modello di istruzione presenta una differenza più evidente: iLLaDA-Instruct arriva a 67,1 mentre Qwen2.5 7B Instruct arriva a 77,1, principalmente in ambito matematico e programmaggio. Il team di sviluppo attribuisce questa discrepanza alle procedure di fine-tuning basate su reinforcement learning utilizzate per Qwen2.5, mancanti in iLLaDA. Un ulteriore problema riconosciuto dagli sviluppatori è che, in compiti di difficoltà maggiore, iLLaDA potrebbe incorrere in loop di pensiero.

iLLaDA 8B

LLaDA 8B

Dream 7B

Qwen2.5 7B

Nella tabella seguente vengono illustrati i punteggi del modello "Instruct".

Model	Diffs	Diffs	Diffs	AR
Model	General Tasks (MMLU)	MMLU-Pro	Mathematics & Science	Code
iLLaDA 8B	71.6	52.3	89.0	65.9
LLaDA 8B	65.5	37.0	77.5	49.4
Dream 7B	67.0	43.3	81.0	55.5
Qwen2.5 7B	7 Leggi l'articolo originale → ← Torna alle news The AI Stack La guida tecnica e indipendente al mondo dell'intelligenza artificiale. Fondamenti Modelli AI RAG MCP Avanzato Orchestrazione LangChain LangGraph Prompt Engineering Usare l'AI Altro News ChipsBuilder © 2026 The AI Stack Powered by ChipsBuilder.com