AI in azienda: ridurre i costi con tre leve di ottimizzazione
La voce relativa all’intelligenza artificiale generativa occupa un posto rilevante nei budget delle aziende. Licenze sovrapposte, modelli premium usati per task banali, abbonamenti che mascherano i consumi reali: le PMI rischiano di pagare più di quanto necessario. Tre le leve di ottimizzazione che permettono di ridurre la spesa senza intaccare la produttività.
Il bilancio AI di Uber per il 2026 è stato interamente esaurito nei primi tre mesi: gli ingegneri che usano Claude Code hanno bruciato in pochi mesi tutto il budget annuale dell’azienda. In Meta, i dipendenti hanno consumato 60,2 trilioni di token in trenta giorni, una cifra che, ai prezzi di listino dell’API di Anthropic, vale circa 900 milioni di dollari, anche scontando le tariffe enterprise. Un singolo ingegnere di OpenAI ha processato 210 miliardi di token in una settimana, l’equivalente di circa 33 volte la dimensione di Wikipedia.
Questi dati emersi a fine aprile dall’inchiesta del New York Times sul fenomeno del tokenmaxxing, il consumo deliberatamente esteso degli strumenti AI come forma di status interno. Questi eccessi sono storie da Silicon Valley, ma la stessa dinamica, in scala minore, inizia a riguardare anche i conti delle PMI.
Il prezzo unitario dei token, vale a dire le unità minime di testo che i modelli linguistici elaborano, è in calo da due anni. Ogni nuova generazione costa meno della precedente a parità di capacità. La bolletta complessiva delle aziende, però, continua a salire: anche se la riduzione del prezzo per token ha reso più economico il singolo prompt, il consumo aggregato è divenuto più imprevedibile e i casi d’uso sono diventati più complessi e richiedono modelli più grandi e più capaci.
Gli agenti autonomi, le finestre di contesto da un milione di token, le chiamate ricorsive e i workflow con tool calling moltiplicano le richieste. Secondo gli Osservatori Startup Thinking e Digital Transformation Academy del Politecnico di Milano, il budget ICT delle imprese italiane crescerà dell’1,8% nel 2026. Nelle PMI, l’intelligenza artificiale arriva al dodicesimo posto fra le priorità di investimento, con il 19% delle aziende che la considera un’area prioritaria.
La sovrapposizione dei costi
Un’ipotetica azienda manifatturiera che attiva Microsoft 365 Copilot per l’integrazione con la suite Office, sottoscrive ChatGPT Plus per il marketing, affiancato a Claude Pro per la direzione tecnica, su quaranta dipendenti spende diverse decine di migliaia di euro l’anno solo in licenze, prima ancora di calcolare eventuali consumi API delle automazioni che girano in background.
Il rischio concreto è bruciare denaro perché si pagano strumenti differenti che fanno la stessa cosa e si usano modelli premium per compiti che, in realtà, richiederebbero modelli di fascia bassa. In molti casi, inoltre, nella fase di scelta mancano le valutazioni che permettano di comprendere quando conviene usare le API e quando, invece, converrebbero gli abbonamenti.
La soluzione: tre leve di ottimizzazione
Il primo strumento per evitare il proliferare dei costi superflui è un inventario completo e sempre aggiornato degli strumenti AI in uso, ottenuto incrociando i log di Single Sign-On, le note spese sulle carte aziendali e le interviste ai responsabili di funzione.
Un secondo passaggio importante è la classificazione per funzione. Una matrice semplice mette sulle righe i casi d’uso (scrittura testi, analisi dati, sintesi documenti, trascrizione meeting, generazione codice, ricerca web, immagini) e sulle colonne gli strumenti attivi. Le caselle con due o più crocette sono candidate al consolidamento.
La logica del single front door impone che ogni nuova richiesta di software AI passi da un punto unico di approvazione, di solito un comitato che riunisce IT, finance e l’owner di processo. Senza questa governance, la riduzione di oggi diventa la sovrapposizione di domani.
Per una PMI di 40-50 dipendenti, un audit serio porta tipicamente all’eliminazione di tre o quattro abbonamenti su dieci, con un risparmio annuo che oscilla fra gli 8.000 e i 15.000 euro. Più importante del taglio in sé è il fatto che, dopo l’audit, l’azienda sa esattamente cosa paga e perché.
Il model routing
Il listino API di Anthropic ad aprile 2026 fissa Claude Haiku 4.5 a un dollaro per milione di token in input e cinque dollari in output. Claude Sonnet 4.6 costa tre dollari in input e quindici in output. Claude Opus 4.7, il modello di punta, costa cinque dollari in input e venticinque in output.
Il modello premium costa quindi cinque volte il modello di fascia bassa per i token in output. Su OpenAI il quadro è simile. In ottica di ottimizzazione, bisogna individuare con esattezza quale modello è in uso per i vari compiti. In assenza di governance, si tende a usare sempre il più potente: è la scelta di default che porta agli sprechi più grandi.
Il principio di base del model routing è il riconoscimento che i task hanno complessità diverse. Una classificazione, un’estrazione strutturata di dati o una sintesi standard di un documento, sono compiti che modelli piccoli ed economici, come Haiku 4.5 o Gemini 3 Flash, gestiscono con un’accuratezza più che sufficiente.
La generazione di contenuti complessi, il ragionamento multi-passo e il coding non triviale richiedono invece modelli più avanzati. I modelli di frontiera, infine, hanno senso solo per attività dove la qualità marginale conta davvero, come i pareri tecnico-legali, le analisi su documenti molto lunghi o la code review architetturale.
La segmentazione dei workflow
Per una Pmi, tradurre questa logica in pratica significa segmentare i workflow. L’implementazione tecnica passa da framework come LiteLLM, Portkey o Martian, che fanno da gateway fra l’applicazione e i diversi provider AI, instradando ogni chiamata sul modello più appropriato in base a regole stabilite o a un classificatore di complessità.
Per le aziende che non hanno dimensioni sufficienti da giustificare la costruzione di un’infrastruttura dedicata, gli stessi vantaggi possono arrivare da una progettazione esplicita dei prompt. Anziché un unico assistente generalista, si configurano agenti specializzati che, sotto il cofano, utilizzano modelli diversi.
A questo si aggiungono meccanismi tecnici che riducono ulteriormente i costi senza richiedere routing. Il prompt caching, disponibile per i principali provider, permette di memorizzare la parte ripetitiva del prompt (un system prompt aziendale, un manuale operativo, un set di esempi) e di pagare per i successivi accessi solo il 10% del costo standard, con un risparmio fino al 90% sull’input ricorrente.
Le API in