DeepSeek Rilascia DSpark, un Nuovo Framework per Accelerare di Fino all'85% l'Inferenza Degli LLM
DeepSeek ha aperto le porte a un nuovo orizzonte per gli sviluppatori di Intelligenza Artificiale con il lancio di DSpark, un framework MIT-Licensed progettato per velocizzare l’inferenza degli LLM (modelli linguistici di grandi dimensioni) in modo efficiente e senza comprometterne l’accuratezza. Questo strumento aperto mira a risolvere uno dei problemi più costosi in termini economici nell’implementazione di AI avanzata: la velocità della risposta utente.
Un nuovo approccio di velocità senza compromessi
Pensiamo agli chatbot AI come a corridori che attraversano un corso d'acqua su pietre singole, muovendosi passo dopo passo. Ma se avessero un esploratore che li antepone, indicando la via più probabile, potrebbero muoversi molto più velocemente. Questo è esattamente il lavoro di DSpark: un sistema “semi-attivo” che permette alle applicazioni di AI di procedere più velocemente.
Architettura e Implementazione
DeepSeek ha rilasciato DSpark insieme a una publicazione tecnica, checkpoint di modelli, e DeepSpec, il codice base per allenare e valutare sistemi di decodifica speculativi. Tutta questa documentazione è disponibile in pubblico sul GitHub e su Hugging Face, rilasciata sotto una licenza MIT, una licenza largamente utilizzata, accessibile e che permette ad ogni sviluppatore, azienda o ente di studio di studiare o adattare facilmente il framework.
Il cuore di DSpark si rivolge a uno dei problemi fondamentali nell’utilizzo di grandi modelli linguistici in tempo reale: rispondere in maniera sufficientemente veloce in modo che l’utente non debba attendere a lungo per un risultato. Questo è essenziale per chatbot, assistenti di codifica, agenti AI e modelli aziendali, dove sono richieste risposte molto lunghe e non possono procedere solo a parole singole.
Applicazioni su DeepSeek-V4
DeepSeek sta applicando DSpark al proprio modello DeepSeek-V4 – un modello di frontiera open-sourc. Specificamente applicano DSpark al DeepSeek-V4-Flash, un modello di 284 miliardi di parametri con 13 miliardi di parametri attivi, e al DeepSeek-V4-Pro, un modello più potente e complesso da 1,6 trilioni di parametri con 49 miliardi di parametri attivi. Entrambi supportano fino a un milione di token contestuali.
Velocità Aumentate
- In ambienti di produzione reale, DSpark ha aumentato il throughput aggregato del 51% su DeepSeek-V4-Flash.
- Ha anche incrementato il throughput del 52% su DeepSeek-V4-Pro.
- Con un sistema equivalente, DSpark ha migliorato la velocità di generazione dei token del 60% al 85% su V4-Flash e di 57% al 78% su V4-Pro, rispetto alla propria soluzione precedente, MTP-1.
- Sebbene questi siano numeri riferiti alla velocità per utente, DeepSeek ha registrato un impatto ben più grande.
- In condizioni molto più rigide (120 token/secondo per utente per V4-Flash e 50 token/secondo per V4-Pro), DSpark si è dimostrato capace di aumentare il throughput aggregato di 661% e 406% rispettivamente.
- Questi elevati incrementi testimoniano l’abilità del sistema di gestire traffico intensivo senza subire la stessa riduzione di efficienza che ha un sistema tradizionale.
DSpark non è limitato a DeepSeek
DeepSeek ha testato DSpark non solo su DeepSeek-V4, ma anche su diverse famiglie di modelli open-source disponibili, come Alibaba’s Qwen e Google’s Gemma. Questo apre la strada a imprese e sviluppatori che possono formare i propri modelli di stesura DSpark-stile adatti ai loro obiettivi specifici. Nonostante non sia una funzione immediata aperta ad API esterne, il framework può essere adattato per diversi modelli quando i pesi e la struttura di distribuzione sono sotto il controllo dell’operatore.
Il significato della decodifica speculativa
Normalmente, gli LLM generano testo un token alla volta. Ogni token potrebbe essere una parola intera, una parte di essa, un segno di punteggiatura, etc., e ogni volta il modello deve fermarsi, esaminare il contesto, e selezionare il prossimo token. Questo è preciso, ma lento.
La decodifica speculativa fu sviluppata in epoche molto remote, nei primi anni di ricerca su Transformer, e propone un metodo per anticipare più token alla volta. Con DSpark, il modello principale non va più a testa bassa: un componente leggero propone anticipatamente diversi token, e il modello principale li convalida in parallelo.
Origini storiche della Decodifica Speculativa
- Nel 2018, Mitchell Stern e collaboratori introdirono la decodifica parallela per modelli aprofonditi. Questo lavoro ha gettato le basi per le moderne tecniche di decodifica speculativa.
- Nel 2022, Heming Xia, Tao Ge e altri collaboratori presentarono SpecDec, un sistema per generazione sequenziale di testo con meccanismo di verifica.
- Yaniv Leviathan, Matan Kalman, e Yossi Matias proposero in quell’anno lo stesso concetto in modo più chiaro per modelli di Transformer.
- Nei successivi anni si ebbero sviluppi paralleli da DeepMind e altri gruppi di ricerca, con varianti e miglioramenti mirati.
DSpark in contesto
Il successo di DSpark dipende in larga misura da quanti token proposti dal draft model (modello di stesura) vengono in effetti accettati dal modello principale. Il lavoro di DeepSeek è stato focalizzato su un equilibrio ottimale tra velocità e accuratezza, per rendere il sistema il più efficace sulle infrastrutture di inferenza.
Insieme alle tecniche precedenti, DSpark introduce nuovi paradigmi paralleli e di verifica, tra cui sistemi di draft basati su alberi, approcci a livello di caratteristiche, testa di stima autonoma tipo Medusa, e metodi di draft parallelli come DFlash.
Conclusione
Con DSpark, DeepSeek mostra un forte contributo al dibattito globale sugli LLM e offre strumenti accessibili che aprono nuovi scenari di ricerca e di sviluppo tecnologico. La capacità di migliorare velocità e scalabilità mantiene intatta la precisione del modello principale, mantenendo il contesto delle risposte al passo con le moderne esigenze utente.