Un nuovo livello di memoria è necessario per l'AI: ecco la soluzione del context tier
Man mano che i carichi di lavoro dell'inferenza si evolvono da scambi domande e risposte discrete in sistemi agenziali a più fasi persistenti, la disponibilità dei GPU non è più l'ostacolo principale per l'AI. Secondo Jeff Harthorn, responsabile della ricerca applicata sull'AI presso Solidigm, il collo di bottiglia si è spostato dal calcolo al contesto.
Perché la gestione del contesto è oggi un collo di bottiglia
"Perché la gestione del contesto è adesso un problema principale, più che la disponibilità dei GPU o l'efficienza del calcolo, è la domanda cruciale del 2026," afferma Harthorn. "I GPU sono diventati notevolmente più economici per FLOP. Le architetture modellistiche e gli engine di servizio di inferenza sono tutti diventati molto più efficienti. Ma la cosa che è cresciuta più velocemente di entrambe è il contesto. Lo stato persistente necessario tra sessioni ha addirittura cresciuto di più rispetto al contesto stesso."
Questo fenomeno si verifica mentre le finestre di contesto aumentano enormemente, rendendo gli input singoli molto più grandi del passato. I sistemi AI agenziali collegano insieme decine o centinaia di chiamate al modello, ciascuna generando stato che deve essere tracciato, e le aziende richiedono che lo stato di inferenza persista tra le sessioni per ragioni di controllo, governazione e riutilizzo. Queste tendenze agiscono in tandem spingendo i volumi di contesto al di là di quanto qualsiasi livello di memoria esistente fosse progettata a gestire.
Un nuovo livello di contesto
La soluzione consiste in un nuovo livello dedicato che sorge tra la memoria dei GPU e l'archiviazione di rete di massa: uno strato di flash ad alte prestazioni e alta densità specificamente progettato per contenere e servire la cache di chiave-valore (Key-value o KV), i dati di inferenza che permettono ai modelli di conservare e riutilizzare il contesto, e i dati di recupero alla velocità di inferenza. Nvidia ha formalizzato questa architettura con il termine CMX. Compagnie di archiviazione come Solidigm stanno progettando prodotti SSD ottimizzati per questo tipo di lavoro.
I problemi di architettura nello storage
"La memoria non era la prima cosa che si considerava quando si progettava l'espansione dell'infrastruttura aziendale," aggiunge Ace Stryker, direttore di AI e marketing dell'ecosistema presso Solidigm. "In molti casi, era un costo relativamente piccolo rispetto al calcolo, e era considerata una merce comune. Si cercava semplicemente il prezzo per gigabyte più basso e si faceva una scelta. Ma ora, se la tua archiviazione non è all'altezza, il tuo ROI ne risente, e l'impatto diretto sarà sul tuo bilancio."
La differenza tra training e inference
L'architettura di archiviazione sulla quale si basa oggi il machine learning era inizialmente pensata per le attività di training. Il training è sequenziale e prevalentemente in scrittura, con grandi quantità di dati che si muovono tra l'archiviazione bulk. La struttura a livelli, con la memoria a banda larga sull'acceleratore, velocità NVMe server, e storage di rete a grandi distanze, funziona relativamente bene per questa applicazione.
Con l’inferenza, invece, la natura del carico di lavoro è cambiata. L’input/output qui è fine, sensibile alla latenza, e sempre più orientato allo stato. I dati KV cache e i dati di recupero hanno ciascuno accessi diversi, ma entrambi richiedono di essere forniti rapidamente e di essere riusati attraverso interazioni successive. Nessuno dei due si adatta facilmente alla memoria a banda larga sull'HBMI GPU, costose e limitate fisicamente, né sull'archiviazione di massa tradizionale, mai progettata per carichi di lavoro di inference.
La mancanza architettonica
"L’interesse architettonico che mi attrae oggi non è tanto in cima alla pila né in fondo, è nel mezzo," afferma Harthorn. "Molto di ciò che è posto sotto la memoria HBM dei GPU viene oggi chiamato a fare cose per cui non è stato davvero progettato e che oggi rappresentano il settore più interessante per il lavoro sui sistemi."
Ricalcolo e performance
Uno dei sintomi più visibili di questa lacuna architettonica è il ricalcolo. Nell'inferenza, il livello pre-fill processa tutti i contesti rilevanti per una sessione prima che l’elaborazione dei token possa iniziare. Quando lo stato della cache KV non è disponibile in un livello accessibile rapidamente, il sistema lo ricalcola — sprechi cicli di GPU che non producono valore aggiunto.
"Una percentuale significativa dei cicli GPU finisce per essere riusata in fase di pre-filling," spiega Harthorn. "Durante tutto quel contesto calcolato, potrebbe trattarsi di computing che riproduce lo stato, invece di produrre lavoro nuovo. Quando inizi a guardare il problema in questo modo, l’uso del GPU sembra parte di un problema di storage."
Riqualificare il problema sta sollevando nuovi interessi verso un metrica mutuata da networking: goodput, o token utili per dollaro, piuttosto che solo token per dollaro grezzo.
Il livello di archiviazione AI e il suo funzionamento
La risposta dell'industria sta avendo forma strutturale. Stà emergendo un nuovo livello tra la memoria del GPU e l'archiviazione di rete tradizionale, progettato appositamente per contenere e fornire l'inferenza ai dati di contesto, strato distinto rispetto ai dischi interni ai server GPU (G3) e ai server di storage su rete (G4), ingegnerizzato per restituire dati di contesto ai GPU acceleratori in maniera estremamente rapida.
"Se stai costruendo un data center a partire dal secondo semestre di quest’anno, o all'inizio del prossimo anno, non puoi pensare che l’archiviazione esista solo in due posti," dice Stryker. "L’archiviazione deve trovare posto in almeno tre aree per gestire il livello della memoria di contesto, e probabilmente diventerà una caratteristica fisso nell’architettura di infrastruttura."
L’emergere di tale livello ricorda quella di object storage, che non esisteva finché un certo quantità di carichi di lavoro non lo richiese. E una volta che si manifestò, sviluppò i propri concetti, SLAs, modelli di costi, e una serie di fornitori indipendenti.
"La memory tier per il contesto sembra essere su un tracciato simile," afferma Harthorn. "La pressione quantitativa sta conducendo alla nascita di questa categoria, e non alla road map di un singolo vendor."
Le risorse hardware necessarie
Per partecipare effettivamente stack di inferenza, le tecnologie SSD devono affrontare nuovi problemi. La coda di latenza, o peggior rendimento del drive, deve essere prevedibile, non solo rapida in media. Un sistema di orchestrazione che assegna risorse dei GPU in base ai tempi di risposta