Con Prometheus, Majestic Labs AI sfida il “memory wall”

AI Italia Blog 29 aprile 2026

L'intelligenza artificiale, in particolare i suoi modelli più grandi e complessi, sta mettendo a dura prova l'infrastruttura tecnologica globale. Server, data center e persino i chip più potenti faticano a gestire la crescente richiesta di risorse, manifestando rallentamenti e inefficienze. Il problema principale, secondo gli esperti del settore, non è tanto la pura potenza di calcolo, quanto piuttosto un collo di bottiglia fondamentale: la memoria. È qui che si scontra l'industria con il cosiddetto “memory wall”, o muro della memoria, un limite che ostacola lo sviluppo e l'applicazione su larga scala dei modelli AI di nuova generazione.

In questo scenario competitivo e in rapida evoluzione, emerge Majestic Labs AI, una startup fondata da tre ex dirigenti con un passato significativo in colossi tecnologici come Google e Meta. L'azienda ha annunciato lo sviluppo di un sistema server innovativo, denominato Prometheus, specificamente progettato per affrontare e superare questo limite cruciale della memoria. L'obiettivo dichiarato di Majestic Labs AI è rivoluzionario: permettere l'esecuzione fluida e sostenibile di modelli linguistici di dimensioni colossali, nell'ordine di 5.000-10.000 miliardi di parametri, senza obbligare data center e clienti a un'escalation di acquisti di chip esclusivamente per garantire la memoria necessaria.

La fondazione di Majestic Labs AI è frutto dell'iniziativa congiunta di Ofer Shacham, Masumi Reynders e Sha Rabii. La credibilità del progetto è stata rafforzata dall'annuncio, avvenuto lo scorso novembre, di un round di finanziamento da 100 milioni di dollari, che ha visto la partecipazione di investitori di spicco quali Bow Wave Capital, Lux Capital e Grove. Il background dei tre fondatori è particolarmente rilevante: hanno collaborato in Google allo sviluppo e alla commercializzazione delle prime generazioni di chip destinati sia ai data center che ai dispositivi mobili. Successivamente, hanno contribuito in modo significativo alla costruzione del team dedicato al silicio personalizzato all'interno di Meta Reality Labs. Questa esperienza diretta nella progettazione e nell'implementazione di hardware avanzato li posiziona in modo unico per affrontare le sfide attuali nel campo dei semiconduttori per l'intelligenza artificiale, un segmento tra i più affollati e strategicamente vitali dell'industria tecnologica moderna.

Il "memory wall": un ostacolo invisibile ma decisivo

Negli ultimi anni, gran parte del dibattito sui chip per l'AI si è concentrato prevalentemente sulla capacità di calcolo. Aziende come Nvidia sono diventate il simbolo di questa corsa, grazie alle loro GPU sempre più performanti e richieste per l'addestramento (training) di modelli generativi complessi. Tuttavia, quando si passa dalla fase di allenamento dei sistemi al loro impiego quotidiano e pratico, ovvero la fase di inferenza – il momento in cui il modello produce risposte in tempo reale – emerge un problema meno visibile ma altrettanto decisivo: la memoria disponibile per contenere l'intero modello e alimentare le sue risposte con la rapidità richiesta.

Il paradosso si manifesta quando un modello AI raggiunge dimensioni molto elevate. In queste condizioni, i chip più potenti possono trovarsi in una situazione di attesa forzata, anziché lavorare a pieno regime. Nonostante possiedano una capacità di calcolo elevatissima, la loro memoria locale non è sufficiente a mantenere a disposizione tutti i dati necessari per l'elaborazione immediata. Ciò li costringe a recuperare informazioni da altri chip vicini o da altri livelli della gerarchia di memoria. Questo processo di recupero introduce un rallentamento significativo che, di fatto, annulla gran parte del vantaggio prestazionale offerto dalla loro potenza di calcolo. Secondo Majestic Labs AI, è proprio a questo punto che molte infrastrutture attuali iniziano a perdere efficienza e, di conseguenza, redditività.

Sha Rabii, uno dei fondatori, ha descritto il problema in termini molto chiari e diretti: quando la memoria scarseggia, i chip ad alte prestazioni rimangono inattivi, aspettando di ottenere risorse aggiuntive da altri componenti del sistema. In pratica, l'enorme velocità di elaborazione di questi processori non viene sfruttata appieno perché il sistema non riesce a fornire loro i dati con la rapidità necessaria. Per i modelli di intelligenza artificiale più grandi e avanzati, Majestic sostiene che questa dinamica rende l'uso delle infrastrutture esistenti sempre meno sostenibile sia dal punto di vista tecnico che economico.

Prometheus: un'architettura che parte dalla memoria

Majestic Labs AI dichiara di aver progettato un'architettura fondamentalmente diversa da quelle oggi dominanti nel mercato. Il suo nuovo sistema server, Prometheus, integra centinaia di chip proprietari denominati AIU (acronimo di artificial intelligence processing unit). I fondatori sottolineano che la caratteristica centrale e distintiva del sistema non è tanto la sola potenza di calcolo, quanto piuttosto l'enorme quantità di memoria ad alta velocità che può essere direttamente associata ai processori. Questa è la vera chiave di volta per affrontare il "memory wall".

Secondo le dichiarazioni dell'azienda, Prometheus è capace di offrire fino a 128 terabyte di memoria veloce per server, una configurazione che può essere ulteriormente personalizzata in base alle specifiche esigenze del cliente. La promessa di Majestic è estremamente ambiziosa: eseguire in modo fluido e performante modelli che contengono da 5 a 10 trilioni di parametri. Per dare un'idea della distanza che separa questa soluzione dai sistemi concorrenti, i fondatori affermano che i loro server offrono una capacità di memoria fino a 1.000 volte superiore rispetto alle GPU prodotte da rivali affermati come Nvidia. Si tratta di un salto quantico nella disponibilità di memoria per l'AI.

Ofer Shacham, amministratore delegato della startup, ha descritto Prometheus come il primo processore per l'AI concepito e costruito partendo dalla memoria, e non primariamente dal calcolo, proprio per affrontare i volumi di dati richiesti dai modelli più grandi. Questa scelta progettuale rappresenta un vero e proprio ribaltamento della logica dominante nel settore. Invece di accumulare potenza di calcolo e aggiungere memoria in un secondo momento, Majestic afferma di aver progettato l'intero sistema a partire dal vincolo che oggi pesa maggiormente sull'inferenza, ossia la disponibilità e la velocità della memoria.

Il contesto di mercato: l'inferenza al centro

Il successo di una startup come Majestic Labs AI, che sta attirando significative attenzioni e capitali, si inserisce in un contesto di mercato in forte evoluzione. L'esplosione dell'AI generativa ha creato una domanda senza precedenti non solo di chip per la fase di addestramento, ma anche, e forse soprattutto, di componenti capaci di rispondere rapidamente e con la massima efficienza energetica alle richieste degli utenti. L'inferenza, il momento in cui il modello produce testi, immagini, codice o altre risposte, è la fase che, su larga scala, può trasformare l'AI in un servizio commerciale estremamente costoso da mantenere.

La crescente diffusione dell'AI agentiva – ovvero sistemi autonomi in grado di eseguire compiti complessi come la scrittura di software, la gestione di processi aziendali o l'interazione avanzata – ha aggravato ulteriormente la pressione sulle infrastrutture. Più agenti operano in parallelo, maggiore è la richiesta simultanea di memoria, larghezza di banda e disponibilità di chip. Questo scenario ha portato a un aumento marcato dei prezzi di noleggio dei componenti hardware avanzati, e ha causato interruzioni di servizio o limitazioni d'uso per i clienti di alcuni servizi di intelligenza artificiale. Per molte aziende, quindi, il problema non è solo trovare potenza di calcolo, ma trovarla a un costo che consenta di mantenere margini di profitto sostenibili. Se l'esecuzione di un modello richiede un numero eccessivo di chip solo per ottenere memoria sufficiente, l'intera architettura operativa diventa intrinsecamente inefficiente. È proprio da questo squilibrio strutturale che Majestic Labs AI cerca di trarre vantaggio competitivo.

Un mercato affollato, ma con problemi irrisolti

Majestic Labs AI non si muove in uno spazio vuoto. Il campo dell'inferenza è già diventato un terreno di scontro e innovazione che vede la partecipazione di grandi gruppi tecnologici e startup specializzate. Advanced Micro Devices (AMD) ha promosso le sue nuove generazioni di chip come soluzioni particolarmente adatte a questa fase operativa cruciale. Nvidia, che rimane il riferimento indiscusso del mercato dei chip AI, ha ulteriormente rafforzato la sua presenza anche nel segmento dell'inferenza: alla fine dello scorso anno ha investito 20 miliardi di dollari per ottenere in licenza la tecnologia e acquisire il team dirigente della startup Groq, e ha successivamente annunciato un nuovo server specificamente orientato all'inferenza.

Anche Google Cloud ha comunicato che la nuova generazione dei suoi processori TPU (Tensor Processing Unit) includerà un chip ottimizzato per il training e un altro specifico per l'inferenza, con un'attenzione particolare alla memoria ad alta larghezza di banda. Cerebras, un'altra società innovativa che si concentra sui chip per l'inferenza, ha siglato quest'anno un accordo importante con Amazon Web Services e ad aprile ha presentato la documentazione per la quotazione in Borsa. Tutti questi movimenti indicano due tendenze fondamentali: la prima è che il mercato riconosce nell'inferenza il passaggio decisivo per monetizzare realmente l'AI su larga scala; la seconda è che nessuno, nemmeno i leader consolidati del settore, considera risolto il problema dell'equilibrio ottimale tra calcolo, memoria, consumi energetici e costi operativi.

Majestic Labs AI entra, quindi, in una corsa già avviata, ma lo fa con una tesi ben precisa e audace: le soluzioni attuali, per quanto potenti, non offrono ancora una quantità di memoria sufficiente per i modelli di intelligenza artificiale che verranno sviluppati nei prossimi anni. Questo si configura come uno degli argomenti commerciali più forti della startup. Secondo i suoi fondatori, molti acquirenti odierni sono costretti a investire in una potenza computazionale superiore a quella che sarebbe strettamente necessaria, solo per ottenere il volume di memoria indispensabile per far funzionare i loro modelli AI. Prometheus si propone di risolvere questo squilibrio, offrendo una soluzione che mette la memoria al centro della sua architettura, promettendo di sbloccare il vero potenziale dei futuri modelli di AI e di rendere la loro implementazione su larga scala più efficiente ed economica.

Leggi l'articolo originale →

← Torna alle news