Come usare l'IA in locale su smartphone e computer

TabletZona 20 aprile 2026

L'installazione e l'utilizzo dell'intelligenza artificiale in locale, direttamente sul tuo smartphone o computer, non è più un'impresa da smanettoni o un privilegio di grandi aziende. Oggi, chiunque può assemblare il proprio "ChatGPT casalingo" sfruttando modelli aperti come Llama, DeepSeek, Phi, Gemma o Mistral, facendoli funzionare senza alcuna connessione a Internet e mantenendo tutti i dati al sicuro sul proprio dispositivo.

L'idea alla base è semplice ed efficace: invece di inviare le tue interrogazioni ai server di giganti tecnologici come OpenAI, Google o Anthropic, scarichi un modello di intelligenza artificiale e lo esegui tu stesso. Questo comporta alcuni compromessi in termini di potenza e comodità, ma in cambio si ottengono significativi vantaggi in termini di privacy, un controllo totale sulla configurazione e la libertà di personalizzare l'IA a proprio piacimento. Esploriamo, con calma ma senza eccessive complicazioni, cosa puoi fare, di cosa hai bisogno e quali sono le migliori applicazioni per implementare la tua IA locale sia sul mobile che sul PC.

Cosa significa realmente "usare l'IA in locale" e perché potrebbe interessarti

Quando si parla di usare l'IA in locale, ci si riferisce all'esecuzione dei modelli di intelligenza artificiale direttamente sul tuo dispositivo: il modello, i suoi pesi e tutto il processo di elaborazione avvengono sul tuo PC, portatile o smartphone, senza dipendere da server esterni. Questo approccio è in netta contrapposizione con gli assistenti tipici come ChatGPT, Gemini, Copilot o Claude, che operano nel cloud e ti restituiscono solamente il risultato finale dell'elaborazione remota.

Adottando questa modalità, qualsiasi prompt, documento o dato sensibile che utilizzi non lascia mai la tua macchina. Nulla transita attraverso i server di terze parti, a meno che tu non decida esplicitamente di connetterti a modelli commerciali tramite API. Per molti usi quotidiani (porre domande, scrivere e-mail, generare codice, ecc.), gli assistenti online sono sufficienti; tuttavia, se gestisci informazioni mediche, finanziarie, legali o aziendali, la possibilità di una fuga di dati nel cloud diventa un rischio inaccettabile.

Inoltre, eseguire l'IA in locale ti permette di sperimentare con modelli open source senza le restrizioni abituali: meno filtri di contenuto, la possibilità di modificare il comportamento, di regolare il sistema di istruzioni o di combinarlo con i tuoi dati (tramite tecniche come RAG, agenti, strumenti esterni...). È importante notare, però, che questi modelli tendono a essere meno potenti dei giganti commerciali e richiedono un hardware adeguato per funzionare in modo fluido.

Vantaggi e rischi dell'IA nel cloud rispetto all'IA locale

Gli assistenti basati su cloud sono estremamente comodi perché non dipendono dalla potenza del tuo hardware: puoi usare GPT-4, Gemini o Claude su un portatile modesto o sullo smartphone senza preoccuparti della RAM o della GPU. Spesso hanno un migliore accesso a informazioni aggiornate, plugin, ricerca web e offrono un'esperienza utente più raffinata.

Il rovescio della medaglia è che tutto ciò che scrivi viene registrato in qualche punto del server, almeno temporaneamente. Ci sono stati incidenti in cui conversazioni o dati interni sono stati esposti a causa di falle di sicurezza. Se generi solo racconti, idee creative o itinerari di viaggio, il rischio è molto basso; ma se introduci password, numeri di carte di credito, referti medici o dati di clienti, la situazione cambia radicalmente.

Con un'IA locale, l'elaborazione avviene interamente sul tuo computer o dispositivo mobile. Non ci sono terze parti che visualizzano i dati e puoi lavorare completamente offline. Il prezzo da pagare è la necessità di un dispositivo con sufficiente RAM, VRAM e spazio di archiviazione, oltre a dover gestire installazioni, download di modelli e una certa configurazione iniziale. Per impostazione predefinita, inoltre, questi modelli non hanno accesso a Internet né cercano informazioni in tempo reale, a meno che tu non configuri esplicitamente tale capacità.

L'approccio più equilibrato spesso consiste nel combinare entrambi i mondi: modelli locali per contenuti sensibili e attività interne, e modelli nel cloud per query generali, ricerche web o lavori che richiedono la massima qualità nella generazione di testo, immagini o codice.

Quale hardware ti serve per eseguire l'IA in locale

Non è necessario possedere un supercomputer per iniziare, ma è utile sapere quali risorse fanno la differenza quando si utilizzano modelli in locale. I requisiti variano a seconda del tipo di modello (testo, immagine, multimodale) e della sua dimensione, ma ci sono alcuni punti comuni.

Nei modelli di linguaggio di grandi dimensioni (LLM), la chiave è la RAM e la memoria video. La RAM determina se il modello può essere caricato e quanti processi paralleli puoi eseguire, mentre la VRAM della GPU influenza la velocità di generazione. Con poca RAM o VRAM, l'IA locale funziona a passo di lumaca: 1-2 parole al secondo, sufficiente per sperimentare ma frustrante per l'uso quotidiano.

Come base ragionevole per computer desktop o portatili, si raccomanda solitamente di avere almeno 16 GB di RAM, una CPU moderna (ad esempio, un Core i7 del 2017 con supporto AVX2 può già essere sufficiente) e una GPU con almeno 4 GB di VRAM. Con meno di ciò, puoi avviare modelli piccoli, ma dovrai scegliere versioni molto compresse e accettare tempi di risposta lenti.

Sui Mac, i chip Apple Silicon (M1, M2 e successivi) hanno un vantaggio significativo perché la memoria unificata agisce come VRAM. Il sistema può utilizzare fino al 75% della RAM come memoria video, il che consente di gestire modelli piuttosto grandi su un MacBook Pro o un Mac Studio, specialmente nelle versioni Max o Ultra con molta RAM.

La buona notizia è che esistono modelli quantizzati e semplificati che si eseguono in modo decente anche su hardware più datato, sacrificando un po' di precisione ma mantenendo una qualità più che accettabile per attività di testo, riassunti o piccoli aiuti alla codifica.

Concetti di base: modelli, parametri, contesto e quantizzazione

Modelli e fine-tuning

Un LLM (Large Language Model) è il "cervello" dell'assistente di IA. È il file di grandi dimensioni che scarichi e che contiene i pesi addestrati: numeri che rappresentano la conoscenza e le regole con cui il modello genera testo. Modelli come Llama 2, Mistral, Gemma, Phi o DeepSeek sono le basi su cui vengono poi costruite varianti specializzate.

La maggior parte dei modelli che troverai sono "fine-tune": versioni affinate per compiti specifici (dialogo, programmazione, matematica, giochi di ruolo, traduzione...). Nomi come Wizard, Vicuna, Nous-Hermes, CodeLlama, WizardMath o Orca Mini indicano diversi addestramenti aggiuntivi. Spesso vengono combinati (ad esempio, un modello Wizard-Vicuna) per cercare di ottenere il meglio da diverse ottimizzazioni.

Parametri e contesto

La dimensione del modello è espressa in miliardi di parametri (3B, 7B, 13B, 34B, 70B...). Più parametri ci sono, più capace tende a essere il modello, anche se aumenta anche il consumo di memoria. Un modello da 70B può comportarsi quasi come una persona in una conversazione lunga, mentre uno da 3B può bloccarsi se il dialogo si complica. Curiosamente, molti utenti considerano che i modelli da 13B ben ottimizzati offrano un eccellente rapporto qualità/prestazioni per un uso generale.

Un altro concetto chiave è il contesto: la "finestra" di memoria che il modello utilizza per generare ogni risposta. I Llama originali gestivano circa 2048 token di contesto (circa 1500 parole), Llama 2 di solito arriva a 4096 o più, e i modelli moderni espandono ulteriormente questa finestra. Più ampio è il contesto, più storico di conversazioni, istruzioni e documenti puoi inviare in una volta prima che il modello "dimentichi" quanto detto in precedenza.

Quantizzazione

Infine, c'è la quantizzazione, che è la tecnica che permette a questi modelli giganti di entrare in computer normali. I pesi del modello sono originariamente salvati con alta precisione (ad esempio, 16 bit), ma possono essere arrotondati a 8, 4 o anche 2 bit, riducendo drasticamente le dimensioni del file e la memoria necessaria, a costo di perdere un po' di precisione.

In pratica, un modello grande fortemente quantizzato (ad esempio, 34B a 3 bit) può rendere meglio di un modello piccolo con pesi più precisi, perché il numero di parametri pesa di più della precisione bruta. L'obiettivo è trovare la combinazione più grande che si adatti alla tua VRAM e che risponda a una velocità accettabile.

Dove trovare modelli di IA e quali formati esistono

Il principale repository di riferimento per scaricare modelli aperti è Hugging Face. La sua sezione dedicata ai modelli permette di filtrare per dimensione, architettura, tipo di attività (ad esempio, generazione di testo, riconoscimento vocale, visione artificiale) e licenza, facilitando la ricerca del modello più adatto alle proprie esigenze hardware e di utilizzo. È la risorsa per eccellenza per la comunità dell'IA open source, offrendo una vasta gamma di opzioni che vanno dai modelli più piccoli e ottimizzati per l'edge computing a quelli più grandi e complessi.

Leggi l'articolo originale →

← Torna alle news