I modelli di intelligenza artificiale locali sono ora utilizzabili: ecco l'hardware necessario

heise online 10 aprile 2026

L'idea di eseguire modelli di intelligenza artificiale direttamente sul proprio hardware locale, anziché affidarsi a server esterni, sta guadagnando terreno rapidamente. Questo approccio offre numerosi vantaggi: migliora significativamente la privacy degli utenti e garantisce una maggiore indipendenza dalle politiche e dai capricci dei fornitori di servizi IA, che talvolta decidono di sostituire modelli molto apprezzati. La domanda cruciale, tuttavia, rimane: quali modelli IA sono realmente utilizzabili e quale hardware è necessario per farli funzionare in modo efficace? Questo articolo si propone di rispondere a queste domande, attingendo a un'analisi approfondita presentata in un video di c't 3003.

Personalmente, sono rimasto sbalordito dai progressi raggiunti dai modelli locali. Lavorando con uno di questi, ho potuto notare una velocità di codifica impressionante, il tutto eseguito sulla mia macchina. E il risultato? A volte è persino superiore a quello offerto da giganti commerciali come ChatGPT di OpenAI o Claude. Certo, la parola chiave è "a volte", ma l'evoluzione di questi modelli è davvero sorprendente. Questo approfondimento è pensato anche per coloro che non hanno ancora molta familiarità con l'IA locale, spiegando in dettaglio cosa serve a livello di hardware e software, e soprattutto, quali modelli di IA scegliere. Si parlerà anche del DGX Spark di NVIDIA, nonostante la mia delusione iniziale.

Il tema dell'IA locale è un argomento di enorme interesse, come dimostrano i numerosi feedback e le domande che ricevo. Una delle domande più frequenti riguarda la configurazione del computer ottimale: cosa comprare? Potete consigliare una macchina? Quali modelli sono validi? Sono ormai al livello di ChatGPT o Claude? Cercherò di rispondere a tutte queste domande in quello che si preannuncia un percorso ricco di informazioni e dettagli, sperando di mantenere l'attenzione di tutti, perché, almeno per me, l'argomento è estremamente affascinante.

Il computer ottimale per l'IA locale: una questione complessa

Iniziamo con la questione del computer ottimale. Questa è una domanda che ha generato discussioni di ore, se non giorni, nella redazione di c't, e non esagero. Il problema è che l'IA non è tutta uguale, e quindi è difficile generalizzare una raccomandazione hardware valida per tutti. Le esigenze variano enormemente a seconda dell'utilizzo:

Volete semplicemente utilizzare un LLM locale come chatbot tramite LM Studio?
Volete generare immagini, video o musica?
Volete trascrivere audio con Whisper?
Volete magari persino fare il fine-tuning di modelli esistenti?

Questi sono tutti scenari d'uso differenti. So che è complicato, ma cercherò comunque di fornire una raccomandazione generale.

Parlando di modelli IA locali da utilizzare con strumenti come LM Studio per creare un chatbot, molti li definiscono "modelli open source". Tuttavia, questa definizione è fuorviante, se non proprio sbagliata. Se fossero veramente open source, dovrebbero includere anche informazioni dettagliate su come sono stati addestrati, o almeno fornire accesso ai dati di addestramento, cosa che quasi mai accade. Per questo motivo, è più preciso parlare di "open weights" piuttosto che "open source". Ciò significa che è possibile scaricare i parametri del modello ed eseguirli sul proprio hardware. Quindi, quando parliamo di LLM locali o modelli locali, ci riferiamo a modelli "open weights". Il termine "modello locale", tuttavia, è il più semplice e intuitivo, poiché implica la capacità di eseguire il modello sul proprio hardware, facendoci ciò che si vuole.

Hardware: cosa considerare per eseguire modelli IA

Se il vostro obiettivo è costruire il vostro "ChatGPT" personale, quale hardware dovreste scegliere? Ecco una sintesi che ho preparato, estremamente utile per questa decisione.

Nell'inferenza di LLM, che la comunità IA chiama semplicemente "inferenza", il fattore più rilevante è quasi sempre la velocità di trasferimento dati della memoria. In altre parole: se avete una scheda grafica con memoria veloce e il modello linguistico si adatta completamente a essa, allora l'esecuzione sarà rapida.

Prendiamo un esempio pratico: Mistral Small 3.2, completamente caricato sulla mia scheda grafica RTX 4090, raggiunge oltre 40 token al secondo. La memoria GDDR6X, con circa un terabyte di trasferimento dati al secondo, è incredibilmente veloce. Se eseguo lo stesso modello sulla mia CPU, che pur non essendo lenta con i suoi 16 core, dispone solo di memoria DDR5-5600 con un trasferimento dati di 90 gigabyte al secondo, ottengo solo 3 token al secondo. Sono rimasto sinceramente sorpreso da come ciò si scala.

Infatti, 1000 gigabyte sono circa undici volte 90 gigabyte, e 40 token al secondo sono tredici volte tre token. Certo, nella pratica la correlazione non è così esatta, poiché entrano in gioco altri fattori. Tuttavia, in linea di massima, l'affermazione è valida.

Le sfide attuali dell'hardware e le soluzioni proposte

Il problema è il seguente: se si desidera una singola scheda grafica con memoria così veloce in una fascia di prezzo inferiore a diverse decine di migliaia di euro, al momento si trova solo la RTX 5090 con 32 gigabyte di memoria – GDDR7, estremamente veloce, ma appunto solo 32 gigabyte. Ciò significa che, per un'inferenza rapida di modelli linguistici, è possibile utilizzare solo quelli che rientrano in questa capacità. Ad esempio, l'eccellente GPT-OSS 120B di OpenAI, con 120 miliardi di parametri, richiede ben 63 gigabyte di memoria.

Si potrebbe pensare di acquistare due 5090? Sfortunatamente no, perché Nvidia non supporta più NVLink, la tecnologia per combinare più schede grafiche, per le schede successive alla generazione 3090 inclusa. Questo è il motivo per cui alcuni appassionati di IA acquistano schede madri da workstation e vi installano, ad esempio, tre RTX 3090 usate. Queste ultime sono disponibili sul mercato dell'usato a partire da circa 700 euro l'una. Sebbene richieda un sistema di raffreddamento elaborato, questa configurazione offre prestazioni eccezionali in termini di token al secondo e supporta modelli linguistici fino a 72 gigabyte (ogni 3090 ha 24 gigabyte, quindi 3 x 24 = 72 gigabyte).

Questi setup personalizzati, secondo diverse fonti online, raggiungono ben oltre i 50 token al secondo, e talvolta anche molto di più, con GPT-OSS 120B, valori davvero notevoli.

Nvidia DGX Spark: promesse e realtà

Se avete seguito le ultime notizie, potreste chiedervi: "Perché tanto sforzo? Ora è possibile acquistare una Nvidia DGX Spark per circa 4000 euro, che ha 128 gigabyte di memoria unificata veloce. Questa non distingue tra RAM normale e VRAM veloce, un approccio simile a quello di Apple. Ed è fatta appositamente per carichi di lavoro IA, quindi dovrebbe funzionare benissimo, giusto?"

Personalmente non ho ancora potuto testare questa unità, ma ho esaminato molti test online. Con il GPT-OSS 120B, le persone ottengono al massimo 43 token al secondo, e talvolta anche significativamente meno. Ho allegato alcuni link a test pertinenti – si tratta quindi di un risultato nettamente inferiore rispetto ai sistemi autocostruiti con più 3090.

È importante ribadire un disclaimer significativo: questi benchmark non sono stati eseguiti da noi, quindi è bene prenderli con cautela. Ciò che è però sicuramente assodato è che la DGX Spark ha un consumo energetico significativamente inferiore rispetto a computer con più 3090.

In sintesi, mentre i modelli di IA locali sono diventati una risorsa preziosa per la privacy e l'autonomia, la scelta dell'hardware rimane un fattore critico. La chiave è la velocità di trasferimento dei dati della memoria. Configurare un sistema ottimizzato può richiedere un investimento e una ricerca attenti, ma i benefici in termini di prestazioni e controllo valgono indubbiamente lo sforzo per gli entusiasti e i professionisti dell'IA.

Leggi l'articolo originale →

← Torna alle news