Home Fondamenti Storia dell'AI Reti Neurali Backpropagation Architetture Token Modelli AI Case Studies Tecniche RAG RAG Avanzato GraphRAG MCP Orchestrazione LangChain LangGraph Prompt Engineering Usare l'AI ChipsBot News

Modello di diffusione iLLaDA: I ricercatori di ByteDance richiedono la logica parola per parola dell'IA linguistica

The Decoder (DE) 27 giugno 2026

Gli sviluppatori del diffusionsmodel iLLaDA hanno introdotto un modello linguistico diverso dagli standard come ChatGPT: invece di generare testo in modo autoregressivo, token per token da sinistra a destra, utilizza una tecnica di diffusion modeling, in cui una sequenza di tokens mascherati viene perfezionata in parallelo in diverse fasi. Questo meccanismo è simile al funzionamento dei modelli generativi di immagini, che partendo da un rumore vanno a formare un soggetto. Le posizioni all’interno del testo lavorano quindi in modo bidirezionale.

Un approccio diverso al diffusions model

iLLaDA non è unico nel suo genere. Google ha anche rilasciato Deepmind

DiffusionGemma, un modello parallelo. Questo produce un testo quattro volte più velocemente, ma i test hanno mostrato che Deepmind DiffusionGemma ha punteggi più bassi in alcuni benchmark rispetto al suo controparte autoregressivo, Gemma 4. Google consiglia di usare Deepmind DiffusionGemma per applicazioni con latenza limitata invece che per compiti che richiedono qualità elevata.

La differenza di approccio

In termini di differenze, DiffusionGemma è un modello 25B MoE con una versione diversa del modello di generazione, concentrato sulla velocità. iLLaDA invece, abbreviazione di "improved LLaDA", ha adottato un piano alternativo: si è concentrato sull’ottenere risultati di qualità attraverso un modello compatto da 8B e un allenamento rigoroso. Risulta dunque evidente se un diffusions model possa davvero competere con i modelli autoregressivi.

Sebbene non si possa fare un confronto diretto tra i modelli, si può osservare che Google utilizza benchmark differenti e in classi di peso diverse. Per capirne di più, analizziamo i dati specifici del modello iLLaDA.

I risultati conseguiti da iLLaDA

L’équipe di sviluppo ha effettuato un addestramento su 12 trilioni di tokens, rispetto ai 2,3 trilioni utilizzati per il predecessore LLaDA, e ha effettuato 12 epoche di finetuning. Secondo i dati riportati nel paper, il modello base iLLaDA mostra un miglioramento rispetto al predecessore LLaDA, migliorando per esempio del 21,6 punti nel test di ragionamento BBH, con un punteggio medio del 63,9, rispetto a 63,3 di Qwen2.5 7B autoregressivo.

    • iLLaDA 8B
    • LLaDA 8B
    • Dream 7B
    • Qwen2.5 7B

La tabella seguente mostra i punteggi del modello base.

Model Diffs Diffs Diffs AR
Model Training tokens General tasks (MMLU) BBH ARC-C
iLLaDA 8B 12T 74.8 71.3 60.8
LLaDA 8B 2.3T 65.9 49.7 45.9
Dream 7B 18T+0.6T 69.5 57.9 59.8
Qwen2.5 7B 18T 71.9 63.9 51.5

Confronti con i modelli diffusionali concorrenti

D’interesse è anche il confronto con il concorrente diffusions model Dream 7B: Quest’ultimo, non essendo stato allenato da zero ma derivato da un modello di tipo autoregressivo, mostra risultati un po’ inferiori a quelli di iLLaDA. Nonostante non abbia beneficiato della precedente esperienza di un modello potente, iLLaDA supera Dream 7B, sebbene in maniera lieve (63,9 a 61,4). L’unica area in cui il modello concorrente mostra superiorità è in ambito della programmazione.

Il modello di istruzione

Il modello di istruzione presenta una differenza più evidente: iLLaDA-Instruct arriva a 67,1 mentre Qwen2.5 7B Instruct arriva a 77,1, principalmente in ambito matematico e programmaggio. Il team di sviluppo attribuisce questa discrepanza alle procedure di fine-tuning basate su reinforcement learning utilizzate per Qwen2.5, mancanti in iLLaDA. Un ulteriore problema riconosciuto dagli sviluppatori è che, in compiti di difficoltà maggiore, iLLaDA potrebbe incorrere in loop di pensiero.

    • iLLaDA 8B
    • LLaDA 8B
    • Dream 7B
    • Qwen2.5 7B

Nella tabella seguente vengono illustrati i punteggi del modello "Instruct".

Model Diffs Diffs Diffs AR
Model General Tasks (MMLU) MMLU-Pro Mathematics & Science Code
iLLaDA 8B 71.6 52.3 89.0 65.9
LLaDA 8B 65.5 37.0 77.5 49.4
Dream 7B 67.0 43.3 81.0 55.5
Qwen2.5 7B 7
Leggi l'articolo originale →
← Torna alle news