NVIDIA Spectrum-X — la Fabric Ethernet Nativa AI Aperta — Imposta lo Standard per l’AI Gigascala, Ora Con MRC
La corsa per costruire l'officina AI più potente al mondo richiede infrastrutture di rete che tengano il passo con le ambizioni dell'AI stessa.
La tecnologia NVIDIA Spectrum-X Ethernet per la scalabilità della infrastruttura sta al primo posto in questa sfida, essendo la più avanzata tecnologia di rete per AI disponibile oggigiorno, adottata da leader del settore che non possono compromettersi sulle prestazioni, la resilienza e la scala.
A tale riguardo si riferiscono OpenAI, Microsoft e Oracle.
Introduzione al Protocollo MRC
NVIDIA, Microsoft ed OpenAI hanno dimostrato leadership di settore introducendo il Multipath Reliable Connection (MRC), un protocollo per il trasferimento RDMA.
Questo protocollo consente una singola connessione RDMA di distribuire il traffico su più percorsi di rete, migliorando larghezza di banda, bilanciamento del carico e disponibilità per fabbriche all’AI su vasta scala.
Confronto Analogico
Immaginate di sostituire una strada a singola carreggiata che attraversa un paese con una pianta urbana ben organizzata accoppiata a un'app di traffico in tempo reale, permettendo ai conducenti di riscalerottarsi attorno intasamenti e chiusure stradali.
“Il deploy di MRC nella generazione Blackwell si è dimostrato estremamente positivo e reso possibile grazie alla forte collaborazione con NVIDIA,” ha affermato Sachin Katti, responsabile del computing industriale presso OpenAI. “L’approccio end-to-end di MRC ci ha permesso di evitare molte delle tipiche riduzioni di velocità e interruzioni correlate alla rete e di mantenere l’efficienza del training AI su larga scala.”
Collaborazione e Implementazioni
Inoltre, Microsoft e NVIDIA hanno una collaborazione a lungo termine concentrata sullo sviluppo dell’infrastruttura necessaria per la prossima generazione di AI.
Microsoft’s Fairwater e Oracle Cloud Infrastructure (OCI’s) Abilene, due tra le più grandi officine di AI per la formazione e il deployment di modelli avanzati di LLM, si affidano su MRC per soddisfare le richieste di prestazioni, scala ed efficienza. NVIDIA Spectrum-X Ethernet è adatta a questo ambiente, contribuendo a creare la fondazione della rete necessaria per eseguire modelli AI su larga scala con sicurezza.
Dimostratasi per prima in produzione con performance ottimizzate su hardware NVIDIA Spectrum-X Ethernet e adesso rilasciata come una specifica aperta attraverso l’Open Compute Project, MRC illustra la potenza della piattaforma Spectrum-X Ethernet: hardware pensato appositamente, telemetry profonda e controllo intelligente della rete lavorano insieme per portare un nuovo protocollo — un insieme di regole che controlla come i dati viaggiano da due sistemi attraverso una rete — dal concetto a un livello gigascala in ambito AI.
Prestazioni e Utilizzo di GPU
MRC fornisce un alto livello di utilizzo delle GPU bilanciando il traffico su tutti i percorsi disponibili, garantendo a ogni GPU la larghezza di banda necessaria durante il training. Mantengono alte prestazioni anche in condizioni di congestione dinamicamente evitando percorsi sovrautilizzati in tempo reale.
Quando avviene la perdita di dati, l’intelligenza nel ripristino garantisce una rapida e precisa ripresa, riducendo al minimo l’impatto di interruzioni di breve durata su lavori di lunga esecuzione, aiutando a mantenere attive le GPU.
Visibilità e Controllo
Gli amministratori guadagnano visibilità fine a grana e controllo del trafficato aumentando l’efficienza operativa e accelerando il troubleshooting su larga scala. MRC, distribuito su Spectrum-X Ethernet, è progettato e ingegnerizzato per risilienza su un’enorme scala.
La sua tecnologia bypass falli, in pochi microsecondi, riesce a rilevare interruzioni del percorso di rete e a deviare il traffico automaticamente tramite hardware. Questa tecnologia è di fondamentale importanza nei cluster di training AI dov’è necessario sincronizzare migliaia di GPU, poiché persino una breve interruzione di rete può rallentare o interrompere l’intero processo di training. Spectrum-X Ethernet previene ciò rispondendo a tutta velocità hardware, tenendo il traffico fluire attraverso percorsi definiti all’interno di reti AI di scala gigascala.
Architetture Multiplanari
Un’altra innovazione cruciale per raggiungere infrastrutture gigascala all'AI è l’architettura di rete multiplanare, che OpenAI utilizza con Spectrum-X Ethernet unito a MRC. Una rete multiplanare è costituita da più strati di rete indipendenti, dove ciascun piano fornisce un percorso di comunicazione alternativo tra GPU.
La capacità di multiplanarità di NVIDIA Spectrum-X rafforza questa architettura rete supportando un bilanciamento del carico tra i piani accelerato in hardware, ampliandone la risistenza e la scalabilità senza sacrificare performance. Questo mantiene latenze prevedibilmente basse mentre si scala a centinaia di migliaia di GPU.
Scelte di Modello RDMA
Con Spectrum-X Ethernet, i clienti ricevono una scelta di modelli RDMA. Sia il protocollo Adaptive RDMA che MRC di Spectrum-X Ethernet,以及其他 custom protocols, vengono eseguiti nativamente su NVIDIA ConnectX SuperNICs e Spectrum-X Ethernet switches e supportano architetture multiplanari all'interno di reti gigascala.
In questo modo, l'infrastruttura hardware e software Spectrum-X Ethernet alimenta oggi i cluster AI più grandi offrendo ai clienti la flessibilità di scegliere il modello di trasporto adatto.
Conclusioni
MRC rappresenta l’ultimo esempio di come l’industria utilizzi Spectrum-X Ethernet come una piattaforma flessibile, componibile, che si integra lungo tutto lo spettro del moderne infrastrutture AI.
Collaborazioni
NVIDIA ha collaborato con AMD, Broadcom, Intel, Microsoft e OpenAI per lo sviluppo di MRC.
Per ulteriori informazioni su NVIDIA Spectrum-X Ethernet, consultare la pagina web, la scheda tecnica e il whitepaper tecnico.