NVIDIA Blackwell guida la prima classifica di infrastruttura per l’AI Agente
AgentPerf e la distinzione tra agentic e conversational AI
AgentPerf, realizzato da Artificial Analysis, rappresenta il primo benchmark globale per l’AI Agente. Tale strumento fornisce agli sviluppatori, aziende e fornitori di infrastruttura un chiaro criterio per confrontare i vari sistemi utilizzati nell’agentic AI.
Nell’ambito delle prime pubblicazioni, la piattaforma NVIDIA Blackwell Ultra NVL72 mostra performance di spicco in tutta la gamma di carichi di lavoro sperimentati con l’agentic AI, gestendo fino a 20 volte più agenti per megawatt rispetto alla precedente generazione NVIDIA Hopper.
L’AI Agente si distingue radicalmente dall’AI Conversazionale. Mentre un singolo completamento di chat rappresenta uno sprint – un’unica richiesta a un modello di linguaggio su larga scala (LLM) e una risposta immediata – un agente funziona come un mezzo a staffetta, suddividendo un obiettivo in molti passaggi e procedendo fino al completamento definitivo.
Gli agenti collegano diverse chiamate LLM e strumenti esterni per raccogliere informazioni, valutare situazioni, ragionare e agire. Questo comporta dozzine o centinaia di chiamate LLM interconnesse, ciascuna che incrementa il contesto fornito, unitamente a operazioni di compilazione, esecuzione, ricerca in database e navigazione web a ogni passaggio.
Più che una somma semplice di azioni, la complessità risultante è moltiplicativa: un dettaglio fondamentale per valutare le prestazioni. I benchmark esistenti dell’inferenza AI si basano su una singola chiamata LLM – la velocità di risposta e il numero di richieste simultanee –, ma non sono progettati per carichi di lavoro agentici, dove le catene di chiamate LLM, i ritardi delle chiamate strumentali e il contesto crescente stressano i sistemi computazionali in modi completamente diversi da uno singolo LLM.
Blackwell GB300 NVL72 e il supporto a 20 volte più agenti
In questa prima fase, AgentPerf misura le prestazioni agentiche utilizzando il modello DeepSeek V4 Pro, un modello di esperti (MoE) su larga scala che rappresenta la categoria dei modelli di punta che alimentano gli agenti più avanzati. In questo scenario, NVIDIA GB300 NVL72 si posiziona nella fascia alta del benchmark, gestendo fino a 20 volte più agenti per megawatt rispetto al sistema NVIDIA HGX H200.
NVIDIA GB300 NVL72 supporta un numero molto maggiore di agenti paralleli per megawatt rispetto all’H200, tanto per una soglia di efficienza di 20 token al secondo per agente, quanto per 60.
L’avanzata prestazione deriva da un estremo progettazione interdisciplinare completa del stack tecnologico. GB300 NVL72 unisce 72 GPU in un unico sistema su larga scala, consentendo ai modelli MoE come DeepSeek V4 Pro di distribuirsi in modo efficiente su larga scala.
I kernel CUDA migliorano ulteriormente le performance sovrapponendo comunicazioni e calcoli, rendendo la coordinazione tra esperti meno onerosa in termini di latenza.
NVIDIA TensorRT LLM mantiene un’elevata efficienza man mano che cresce il numero di sessioni parallele. La gestione in parallelo degli input e degli output permette di ottimizzare indipendentemente ciascun processo.
Metodologia AgentPerf basata su lavoro reale con gli agenti
I risultati di AgentPerf riflettono una metodologia costruita per rappresentare fedelmente le caratteristiche dell’AI Agente nel mondo reale.
Basato su traiettorie di agenti di coding, il benchmark ripercorre attività reali, come compiti di programmazione, lettura e modifica di codice, esecuzione di comandi e iterazione in base agli esiti, provenienti da oltre 12 linguaggi di programmazione e repository pubblici.
AgentPerf misura quante traiettorie di agentic workloads un sistema può supportare contemporaneamente, mantenendo specifici standard di risposta e velocità di generazione di output. Le chiamate agli strumenti non vengono eseguite, ma simulate, per esprimere solo la differenza delle performance computazionali accelerate.
I risultati e il loro tradimento diretto su infrastruttura
I dati emergenti si riflettono direttamente in decisioni di infrastructure aziendali: quante attività agentiche possono essere gestite in parallelo per acceleratore e per megawatt di energia consumata. Per aziende che distribuiscono agenti AI su larga scala, quei numeri indicano la quantità effettiva di lavoro produttivo che un investimento su determinata infrastruttura può generare.
Partner NVIDIA sfruttano la leadership di Blackwell
I principali fornitori di inferenza, tra cui Baseten, DeepInfra e Together AI, già distribuiscono carichi di lavoro agenti su modelli all’avanguardia come DeepSeek V4 Pro sulla piattaforma NVIDIA Blackwell, alimentando attualmente applicazioni agent-based in produzione.
Together AI supporta l’inferenza in tempo reale per Cursor, una piattaforma di coding con agenti AI, basata su NVIDIA Blackwell. Gli agenti di Cursor risolvono problemi, generano funzionalità e attuano riorganizzazioni del codice, mentre gli sviluppatori continuano a lavorare.
DeepInfra alimenta Pam.ai, una piattaforma AI per l’industria automobilistica, che utilizza agenti su NVIDIA Blackwell per prenotare appuntamenti per manutenzione, gestire chiamate e svolgere campagne di vendita esterne.
Optimizing for the future
Man mano che NVIDIA e l’ecosistema open source ottimizzano sempre di più i software di inferenza, le prestazioni ed efficienze per i carichi di lavoro agenti continueranno a migliorare. L’architettura NVIDIA Vera Rubin è già in produzione completa, offrendo il prossimo livello di capacità infrastrutturale per soddisfare le crescenti esigenze di agenti AI distribuiti su larga scala.
Per approfondire la metodologia di AgentPerf e le ottimizzazioni di NVIDIA per l’IA agente, si rimanda a questo articolo tecnico.
Categorie e Etichette
- AI Infrastructure
- Hardware
- Networking
- Software
L’articolo si conclude con le seguenti categorie tematiche:
- Agentic AI
- CUDA
- Inference
- NVIDIA Blackwell
- TensorRT