Home Fondamenti Storia dell'AI Reti Neurali Backpropagation Architetture Token Modelli AI Case Studies Tecniche RAG RAG Avanzato GraphRAG MCP Orchestrazione LangChain LangGraph Prompt Engineering Usare l'AI ChipsBot News

DFlash Crea Blocchi Interi di Token Contemporaneamente, Aumentando Fino a 15x la Velocità su NVIDIA Blackwell

MarkTechPost 25 giugno 2026

Modelli linguistici autoregressivi generano testo token per token. Ogni token aspetta che il precedente venga elaborato. Questo ciclo seriale lascia sotto-utilizzati i moderni GPU e mantiene l'inferenza lenta. I costi diventano ancor più evidenti con i modelli di Chain-of-Thought con output lunghi. La latenza diventa il fattore principale nella generazione.

Il decoding speculativo è la soluzione standard. Un piccolo modello di draft propone token futuri. Un modello target verifica i token in parallelo. I token accettati vengono mantenuti, in modo da conservare un output lossless. La maggior parte dei metodi, incluso l'attuale capolista EAGLE-3, ancora draft in modo autoregressivo. Questo drafting seriale limita gli miglioramenti di velocità vicini alle 2–3×.

DFlash

DFlash, presentato da un team di ricerca di UC San Diego (z-lab), adotta un approccio diverso. È un modello leggero a blocchi di diffusione progettato per il drafting. Invece di draft token per token, propone interi blocchi in una singola passata in avanti. Successivamente, il modello target verifica il blocco in parallelo.

Il team di ricerca ha segnalato accelerazioni lossless superiori a 6× su una vasta gamma di modelli e compiti. Il modello raggiunge velocità fino a 2,5 volte superiori a quelle di EAGLE-3. Su un setup NVIDIA Blackwell, il team di ingegneria NVIDIA ha riferito un throughput fino a 15 volte più alto con gpt-oss-120b. Questo risultato mantiene la stessa interattività utente.

Come funziona il drafting a blocchi

Modelli a diffusione a blocchi degradano interi blocchi di token nascosti in una sola volta. Mescolano la generazione parallela con la struttura autoregressiva a blocchi. DFlash applica questa logica solo alla fase di draft. La verifica viene affidata al modello target autoregressivo fidato.

Questa divisione è cruciale per la qualità. I modelli standalone di diffusione spesso rimangono indietro sui modelli autoregressivi in termini di precisione. Inoltre, spesso necessitano di molti passaggi di denoising, rallentando il tempo di inferenza reale. DFlash evita entrambi i problemi: il draft non deve essere perfettamente preciso per essere accettato, e la verifica parallela del target garantisce la correttezza finale della distribuzione.

Un secondo vantaggio riguarda il costo del drafting. I costi di un modellatore autoregressivo crescono linearmente con il numero di token speculativi. Un modellatore a diffusione genera tutti i token in un'unica corsa parallela. La latenza del drafting rimane praticamente piatta all'aumentare della dimensione del blocco. Questo permette a DFlash di utilizzare modelli di draft più profondi e espressivi senza aggiungere latenza.

Questo separa DFlash dai precedenti sforzi in drafting a diffusione. Metodi come DiffuSpec e SpecDiff-2 usano modellatori da 7B, limitando le accelerazioni intorno alle 3–4×. DFlash, invece, utilizza un modellatore da cinque strati (otto strati per Qwen3-Coder).

L'idea chiave: Il target sa meglio

Il concetto fondamentale di DFlash è semplice: il modello target sa meglio. I modelli autoregressivi grandi codificano informazioni su token futuri nei loro stati nascosti. DFlash estrae stati nascosti da diversi livelli del target. Poi, fonde insieme tali informazioni in una singola funzione target context compatta. Questa funzione guida il modello di draft.

DFlash inietta questa funzione in modo diverso da EAGLE-3. EAGLE-3 unisce le caratteristiche del target solo alle incursioni embeddabili del modello di draft. Man mano che la profondità del draft cresce, questo segnale si diluisce. DFlash, invece, inietta la funzione nei proiettori Key e Value di ogni strato di draft. Queste proiezioni occupano la cache KV del modello di draft e persistono durante le iterazioni di drafting.

Questa iniezione KV consente una scalabilità dell'accettazione proporzionale alla profondità del drafting. Il modellatore DFlash di cinque strati, generando 16 token in una singola passata, supera EAGLE-3 che ne genera solo 8. Nei test pubblicati, DFlash ha dimostrato un lower-latency e una maggiore accettazione. In sostanza, il modello di draft funziona come un adattatore di diffusione sovrapposto al target.

Risultati diversi di velocità

Due numeri di accelerazione si riferiscono a misurazioni diverse. L'accelerazione di 6× della ricerca DFlash rappresenta una velocità lossless per stream singolo. Su Qwen3-8B con decoding greedy (Transformers backend), DFlash media un'accelerazione di 4,86×. EAGLE-3, a sua volta, media 1,76× con tree size fino a 16 e 2,02× con tree size fino a 60. DFlash raggiunge un picco di 6,08× su MATH-500 (τ = 7,87) e media τ = 6,49 su altri compiti.

L'accelerazione del 15× di NVIDIA si riferisce al throughput a tariffa interattività fissa. Si applica a gpt-oss-120b su otto GPU NVIDIA Blackwell in un sistema DGX B300, utilizzando TensorRT-LLM. Nella gamma di token per utente che va da 500 a 600 al secondo, DFlash serve più di 15 volte il throughput rispetto alla generazione autoregressiva tradizionale. Cioè, circa 1,5 volte più del risultato di EAGLE-3 ottenuto su una piazza simile.

La tabella seguente mostra i vantaggi per compito della ricerca su Qwen3-8B con temperatura zero (Transformers backend).

Compito (Qwen3-8B, temperatura 0) Baseline EAGLE-3 (16) DFlash (16) DFlash τ
GSM8K 1.00× 1.94× 5.15× 6.54
MATH-500 1.00× 1.81× 6.08× 7.87
AIME25 1.00× 1.79× 5.62× 7.08
HumanEval 1.00× 1.89× 5.14× 6.50
MBPP 1.00
Leggi l'articolo originale →
← Torna alle news