NVIDIA Blackwell domina MLPerf Training 6.0 con risultati eccezionali in termini di velocità e scala

NVIDIA Blog 17 giugno 2026

In MLPerf Training 6.0, un insieme rigoroso di benchmark peer-reviewed per valutare le prestazioni nell’addestramento AI, la piattaforma NVIDIA Blackwell è risultata leader in tutti i criteri valutati:

Tempo d’addestramento più veloce: miglior risultato su ogni benchmark

Addestramento su larga scala: utilizzato 8.192 GPU con i sistemi NVIDIA Blackwell NVL72

Unica piattaforma con sottoscrizioni per tutti i sette benchmark.

NVIDIA unisce prestazioni, scala, affidabilità in una sola piattaforma progettata per costruire modelli AI all’avanguardia più velocemente, ridurre i costi di addestramento e generare profitti più precocemente.

Performance: Tempo d’addestramento più veloce per tutti i benchmark

In MLPerf Training 6.0 sono stati aggiunti due nuovi carichi di lavoro per la preformazione mixture-of-experts (MoE): DeepSeek-V3 671B e GPT-OSS-20B, per rappresentare l’importanza crescente delle architetture MoE. La NVIDIA platform è l’unica a essere stata sottoposta a tutti i benchmark, risultando il più veloce in tutti e sette.

NVIDIA ha sottoposto i propri risultati con sistemi rack-scale GB200 NVL72 e GB300 NVL72. All’interno di questi sistemi, i NVLink di quinta generazione connettono 72 GPU con larghezza di banda elevata, trasformandole in un unico pool di calcolo e memoria, permettendogli di funzionare come una singola GPU gigantesca.

Gli addestramenti su larga scala MoE affrontano la stessa sfida di comunicazione all-to-all che si riscontra nell’inferenza MoE, con i token che devono essere instradati verso la sottorete esperta. L’avanzata larghezza di banda offerta da NVLink rende tutto ciò rapido ed efficiente in grandi scale.

NVIDIA ha inoltre presentato i metodi training in floating point (NVFP4) che aumentano le performance mantenendo gli standard di accuratezza, anche in carichi su larga scala. Una recente applicazione di questi metodi riguarda la preformazione del Nemotron 3 Ultra, un modello da 550 miliardi di parametri.

Un esempio concreto di quanto la piattaforma NVIDIA sia avanzata è il GB300 NVL72, che in questa tornata ha conseguito fino a 1,6 volte di performance in più rispetto al GB200 NVL72, grazie a:

Densità di calcolo più alta mediante NVFP4

Capacità di memoria espansa

Limite di potenza più alto che permette una performance di picco sostenuta

Scala: La più grande cluster Blackwell in MLPerf Training

Per sostenere l’addestramento distribuito su larga scala, NVIDIA mette a disposizione due sistemi di networking paralleli: NVIDIA Quantum InfiniBand e NVIDIA Spectrum-X Ethernet, dando ai centri di dati il potere di costruire cluster grandi e ottimizzati in base alle esigenze infrastrutturali.

NVIDIA ha raggiunto il risultato più grande in MLPerf Training con 8.192 GPU, addestrandosi sul modello MoE più grande, DeepSeek-V3 671B, utilizzando i sistemi GB200 NVL72. Questo risultato rappresenta la sottoscrizione più estesa mai realizzata per un sistema Blackwell.

Un modello denso molto capiente, il Llama 3.1 405B, ha raggiunto i risultati su un cluster da 5.120 GPU con GB200 NVL72 per addestramento.

Questi risultati sono frutto del lavoro congiunto tra NVIDIA e i partner su archittettura di rete, networking e software:

Microsoft Azure: ha addestrato Llama-3.1 405B su 8.192 GPU con GB200 NVL72, raggiungendo la qualità di riferimento in 7,07 minuti, il risultato più veloce.

CoreWeave: ha conseguito il tempo d’addestramento più breve su DeepSeek-V3 671B, raggiungendo il target di qualifica in 2,02 minuti a scala 8.192-GPU utilizzando GB300 NVL72 collegati con Spectrum-X.

Affidabilità su largo scale: pensato per la produzione

Nel contesto di addestramento su larga scala, che può durare settimane o mesi su migliaia di GPU, l’efficacia dipende non solo dalle prestazioni ma anche dalla resilienza del sistema. NVIDIA ha costruito il proprio sistema su due parametri:

Menomi interruzioni: Gli schermi di laboratorio di NVIDIA effettuano oltre 30 test in fase di manifattura per prevenire i guasti. La tecnologia RAS (Reliability, Availability and Serviceability) monitora quasi l’intera chip e le funzioni di auto-guarigione instradano i guasti, mantenendo il lavoro in esecuzione. A livello di rete, Spectrum-X Ethernet è in grado di bypassare link falliti in pochi millisecondi.

Ripristino più veloce da interruzioni: La tecnologia NVRx riduce lo stress causato dai guasti, con funzionalità per la diagnosi, il recupero e il monitoraggio del cluster intero, che permette il ripristino del sistema da uno snapshot, evitando la ricompressione completa.

Grazie a questi due aspetti, NVIDIA garantisce addestramento replicabile nel tempo, adatto a sistemi in produzione.

AI all’avanguardia basati su NVIDIA

NVIDIA ha visto partecipare esternamente molti partner nel round MLPerf: 19 organizzazioni inclusi ASUSTeK, Microsoft Azure, Cisco, CoreWeave, Dell Technologies, Fujitsu, Giga Computing, Google Cloud, HP Enterprise, Inventec, Krai, Lambda, Nebius, NetWeb Technologies, Quanta Cloud, ScitiX, Supermicro e TTA.

Questi partner sfruttano infrastrutture NVIDIA su carichi di lavoro complessi.

CoreWeave, che ospita le infrastrutture NVIDIA all’interno di Dell PowerRack, ha ottenuto risultati impressionanti con:

Cohere: ha ridotto il tempo d’addestramento di 3 volte su GB2

Leggi l'articolo originale →
← Torna alle news