DeepSeek V4-Pro e V4-Flash: il modello open-weight da 1,6T e le sue implicazioni
Il panorama dell'intelligenza artificiale generativa si arricchisce con il rilascio di due nuovi modelli da parte di DeepSeek: V4-Pro e V4-Flash. Questi modelli, pubblicati su Hugging Face con licenza MIT, segnano un passo significativo nel settore, introducendo un contesto da 1 milione di token e prestazioni dichiarate che li pongono in diretta competizione con giganti del calibro di Claude Opus, GPT-5 e Gemini. Il loro arrivo sul mercato, avvenuto il 24 aprile 2026, coincide con una situazione particolare in Italia, dove il Garante per la privacy ha mantenuto bloccato il servizio cloud di DeepSeek. Questa asimmetria tra la disponibilità di un modello open-weight e il divieto del servizio cloud pone un nodo cruciale per le imprese che valutano l'adozione di queste tecnologie, in particolare per i consulenti in trasformazione digitale e gli esperti di strategia AI e di prodotto, che devono considerare la differenza tra l'utilizzo dell'API di DeepSeek e il download dei "pesi" del modello per un'esecuzione locale.
I nuovi modelli DeepSeek: V4-Pro e V4-Flash
DeepSeek ha presentato in anteprima due versioni dei suoi nuovi modelli: V4-Pro e V4-Flash. Il V4-Pro si distingue per un impressionante numero di parametri, con un totale di 1,6 trilioni di parametri (di cui 49 miliardi attivati), mentre il V4-Flash è una versione più leggera, con 284 miliardi di parametri totali (e 13 miliardi attivati). Entrambi i modelli sono caratterizzati da una finestra di contesto eccezionalmente ampia, pari a 1 milione di token, una capacità che consente loro di elaborare volumi di informazioni molto elevati in un'unica interazione.
Prestazioni al vertice del settore
Sul fronte delle prestazioni dichiarate, il quadro è estremamente competitivo. Il modello V4-Pro in modalità Max si posiziona in modo predominante in diversi benchmark chiave. Supera Claude Opus 4.6, GPT-5.4 e Gemini 3.1-Pro su LiveCodeBench, raggiungendo un punteggio di 93,5. Anche su Codeforces, una piattaforma per il coding competitivo, V4-Pro ottiene un rating di 3206, il più alto tra i modelli di frontiera riportati, superando GPT-5.4 (3168) e Gemini (3052). In Apex Shortlist, un altro benchmark di performance, raggiunge 90,2. Si mantiene a stretto contatto con i leader su SWE-Verified (80,6 contro 80,8 di Opus) e rimane leggermente indietro solo a Gemini 3.1-Pro per quanto riguarda la conoscenza generale.
Approfondendo ulteriormente i benchmark, il V4-Pro-Max tocca 87,5 su MMLU-Pro, allineandosi esattamente a GPT-5.4 ma restando sotto Gemini 3.1-Pro (91,0) e Claude Opus 4.6 (89,1). Su HLE, considerato il benchmark più arduo per la conoscenza e il ragionamento, si ferma a 37,7, contro i 40,0 di Opus e i 44,4 di Gemini. Per quanto riguarda la capacità di risoluzione di problemi matematici avanzati, su IMOAnswerBench raggiunge 89,8, superando Opus (75,3) e Gemini (81,0), ma restando leggermente sotto GPT-5.4 (91,4). Su HMMT 2026 fa 95,2, con Opus (96,2) e GPT-5.4 (97,7) marginalmente avanti. In sintesi, sul lato del coding, del ragionamento matematico e degli agentic workflow, V4-Pro si colloca nella banda dei migliori modelli al mondo, spesso davanti ai suoi concorrenti più noti.
Tuttavia, sul lato della conoscenza generale e della world knowledge fattuale, il divario con Gemini 3.1-Pro rimane visibile, in particolare su SimpleQA-Verified dove Gemini raggiunge 75,6 e V4-Pro si ferma a 57,9. DeepSeek stessa, nella sua model card, descrive la propria traiettoria come tre-sei mesi dietro la frontiera dei modelli closed-source, una stima realistica che contribuisce a calibrare le aspettative del mercato e degli sviluppatori.
Innovazioni tecniche e sostenibilità economica
La parte tecnicamente più intrigante del rilascio di DeepSeek V4-Pro e V4-Flash risiede nel modo in cui l'azienda è riuscita a ottenere tali prestazioni su un contesto così esteso da 1 milione di token. DeepSeek ha implementato un'architettura di attenzione ibrida che combina due meccanismi innovativi:
- Compressed Sparse Attention (CSA): Questo meccanismo comprime la cache KV lungo la dimensione della sequenza e applica una selezione sparsa. In V4-Pro, utilizza un top-k di 1024, mentre in V4-Flash si avvale di un top-k di 512. L'obiettivo è focalizzare l'attenzione solo sui token più rilevanti, riducendo l'overhead computazionale.
- Heavily Compressed Attention (HCA): Questa componente utilizza un fattore di compressione di 128 con attenzione densa per garantire una copertura globale a costi ridotti. In questo modo, il modello può mantenere una visione d'insieme del contesto senza sovraccaricare le risorse.
I due meccanismi sono abilmente interlacciati nello stack del modello, lavorando in sinergia per ottimizzare l'efficienza. Il risultato di questa ingegneria è notevole: V4-Pro su un contesto da 1M di token richiede il 27% dei FLOP per token rispetto a V3.2 e il 10% della KV cache. Tradotto in termini pratici, a parità di modello, si ottiene dieci volte meno memoria occupata dalla cache durante l'inferenza e un quarto del calcolo necessario. Questa significativa riduzione dei requisiti computazionali e di memoria rappresenta una leva economica fondamentale, che permette a DeepSeek di offrire un pricing API estremamente competitivo di 0,28 dollari per milione di token in input, circa cinquanta volte meno di Claude Opus 4.6.
Accanto a questa architettura di attenzione innovativa, DeepSeek ha integrato due ingredienti complementari per migliorare ulteriormente la stabilità e la velocità di addestramento. Le Manifold-Constrained Hyper-Connections (mHC) sono utilizzate per stabilizzare la propagazione del segnale negli strati più profondi del modello, un aspetto cruciale per i modelli con molti parametri. Inoltre, l'optimizer Muon è stato impiegato per garantire una convergenza più rapida durante il training. L'intero sistema è stato pre-addestrato su un massiccio dataset di 32 trilioni di token, riflettendo una chiara scelta industriale di DeepSeek: produrre intelligenza artificiale a un costo sostenibile, anziché perseguire uno scaling puro e indiscriminato.
Il blocco del Garante italiano e la questione dell'open-weight
In Italia, l'introduzione di questi modelli all'avanguardia avviene in un contesto di significative restrizioni normative. Il 30 gennaio 2025, il Garante per la privacy ha imposto una limitazione definitiva e d'urgenza al trattamento dei dati personali degli utenti italiani da parte di Hangzhou DeepSeek Artificial Intelligence e Beijing DeepSeek Artificial Intelligence. La contestazione sollevata dal Garante non era di natura tecnica, bensì di principio e legata alla conformità con il GDPR. I punti critici includevano:
- La privacy policy indicava l'archiviazione dei dati in Cina senza le garanzie previste dall'articolo 32 del GDPR.
- Mancava una base giuridica documentata per il trattamento dei dati.
- Non era stato designato un rappresentante UE ai sensi dell'articolo 27 del GDPR.
- La società aveva risposto alla richiesta di chiarimenti sostenendo di non essere soggetta al GDPR in quanto non operante in Italia.
Il Garante ha giudicato la risposta insufficiente e ha quindi bloccato il servizio in via definitiva. Questa posizione è stata ulteriormente rafforzata nel febbraio 2026 da un'analisi dell'IAPP (International Association of Privacy Professionals) che ha evidenziato come la Cina non abbia una decisione di adeguatezza europea in materia di protezione dei dati e come il quadro regolatorio cinese ponga questioni specifiche sulla sicurezza del trattamento.
La distinzione cruciale: servizio cloud vs. pesi neurali
Il punto che cambia radicalmente lo scenario, in particolare per le aziende italiane, risiede nell'architettura di distribuzione di DeepSeek. I pesi dei modelli V4-Pro e V4-Flash sono stati pubblicati con licenza MIT su Hugging Face. Questa licenza, ampiamente riconosciuta, regola il software completamente libero per uso commerciale. Ciò implica che chi scarica questi modelli e li esegue sulla propria infrastruttura non sta utilizzando il servizio cloud che il Garante ha bloccato. Si sta invece avvalendo di un modello matematico che, una volta caricato in memoria, non comunica con i server DeepSeek, non trasmette prompt e non invia telemetria. Il blocco regolatorio imposto dal Garante riguarda esplicitamente il servizio chat.deepseek.com e l'app mobile, non i pesi neurali in sé.
Questa distinzione ha conseguenze pratiche considerevoli per chi valuta l'adozione. L'opzione cloud di DeepSeek è preclusa nel contesto italiano, ma l'opzione di self-hosting rimane tecnicamente aperta. Naturalmente, con questa scelta, tutti i vincoli del GDPR relativi al trattamento dei dati restano in capo al titolare del trattamento italiano che esegue il modello. Questa flessibilità permette alle aziende di avere un maggiore controllo sulla sovranità dei dati e sulla conformità normativa, ma al contempo introduce nuove sfide legate all'infrastruttura e alle competenze.
Requisiti di deployment e scenari di utilizzo
L'ipotesi di eseguire V4-Pro su hardware aziendale deve essere inquadrata senza aspettative di marketing irrealistiche. La versione FP8 Mixed del modello base occupa circa 862 miliardi di parametri in formato tensor, mentre la versione instruct utilizza FP4 per i parametri degli expert MoE e FP8 per il resto. Per l'inferenza in produzione su V4-Pro, sono necessari cluster multi-GPU con tensor parallelism e pipeline parallelism. L'ordine di grandezza è quello dei datacenter enterprise con otto-sedici H100 (Nvidia) o superiori, il che rappresenta un investimento significativo.
Il modello V4-Flash, con i suoi 284 miliardi di parametri totali, è più gestibile rispetto al V4-Pro, ma rimane comunque al di fuori della portata di una singola workstation. Tuttavia, le versioni distillate della famiglia R1 di DeepSeek, già disponibili e con dimensioni che variano da 1,5 a 70 miliardi di parametri, girano su hardware molto più accessibile. Ad esempio, una RTX 4090 da 24 GB di VRAM può gestire tranquillamente la variante 32B quantizzata, mentre un comune laptop con 8 GB di VRAM può eseguire la versione 7-8B tramite Ollama in pochi minuti di setup. Questo apre le porte a scenari di sviluppo e test locali più ampi.
Per settori altamente regolamentati e sensibili come la finanza, l'healthcare, la pubblica amministrazione e il settore legale, lo scenario concretamente più interessante è il deployment air-gapped. In questa configurazione, il modello viene distribuito su infrastruttura interna all'azienda, senza alcuna connessione esterna. I prompt e gli output non escono mai dal perimetro di rete, risolvendo così in un colpo solo il problema della sorveglianza esterna e quello della sovranità del dato. Queste sono due dimensioni che nessun fornitore cloud, sia esso europeo, americano o cinese, può garantire allo stesso livello di sicurezza e controllo. Il costo di un tale deployment è, ovviamente, elevato, includendo hardware dedicato, competenze specialistiche in ML-ops, manutenzione continua e aggiornamenti del modello. Tuttavia, le aziende che sostengono questi costi lo fanno perché il valore strategico dei dati trattati supera di gran lunga il potenziale risparmio derivante dall'utilizzo di servizi cloud esterni.
Contesto di mercato e prospettive future
Il rilascio dei modelli DeepSeek V4 avviene in un mercato dell'IA in rapida evoluzione, dove il divario tra i modelli open-weight cinesi e i modelli closed-source di frontiera occidentali si misura ormai in mesi, piuttosto che in generazioni. Il premier cinese Li Qiang, nel marzo scorso, ha pubblicamente rivendicato che i grandi modelli AI cinesi stanno guidando lo sviluppo dell'ecosistema open-source globale. Questa affermazione è supportata dai numeri: il 63% dei nuovi modelli fine-tuned su Hugging Face partono da basi cinesi, indicando una notevole vitalità e influenza dell'innovazione proveniente dalla Cina.
Sullo sfondo di questi sviluppi positivi, permane un'accusa, sollevata da Anthropic nel febbraio 2026, secondo cui DeepSeek avrebbe utilizzato migliaia di account fraudolenti per generare milioni di conversazioni con Claude e usarle come dati di training. DeepSeek non ha né confermato né smentito questa accusa in modo dettagliato. Nello stesso periodo del lancio di DeepSeek V4, lo Science and Technology Office della Casa Bianca ha inoltre espresso considerazioni strategiche sull'accelerazione dello sviluppo di AI avanzate e sicure, sottolineando l'importanza di una governance robusta per guidare l'innovazione tecnologica.
In conclusione, i modelli DeepSeek V4-Pro e V4-Flash rappresentano un'evoluzione significativa nel campo dell'intelligenza artificiale open-weight, sfidando i leader di mercato con prestazioni elevate e innovazioni architetturali. In Italia, la complessa situazione normativa relativa al Garante della privacy apre a un dibattito sull'adozione di tali tecnologie, spingendo le aziende a valutare attentamente le opzioni di self-hosting per mantenere il controllo sui dati e garantire la conformità al GDPR, pur fronteggiando i notevoli investimenti in hardware e competenze necessarie per un deployment su vasta scala.