Ricerca e sviluppo AI: filiera fragile, opacità e il nodo TSMC
L'AI Index 2026 di Stanford, analizzando i numeri della ricerca e dello sviluppo nel campo dell'intelligenza artificiale, dipinge un quadro complesso di un ecosistema che, pur crescendo in potenza e capacità, si restringe contemporaneamente in termini di accessibilità e trasparenza. Nel 2025, sono stati rilasciati 95 modelli "notable", la stragrande maggioranza dei quali, l'87%, è stata sviluppata dall'industria privata, mentre un singolo modello è provenuto da laboratori accademici. Questa crescente concentrazione, unita a una filiera produttiva fortemente dipendente da un unico attore, solleva interrogativi significativi sulla resilienza e la trasparenza del settore.
La crescente concentrazione nell'industria
Il dominio dell'industria privata
I dati forniti dall'AI Index sono eloquenti e mostrano una chiara inversione di rotta nel panorama della ricerca e sviluppo. Nel 2025, Epoch AI ha identificato 87 modelli notable prodotti dall'industria, solo 1 dall'accademia e 5 da collaborazioni industria-accademia. Questa quota industriale, che nel 2010 si attestava intorno al 50%, ha raggiunto un impressionante 91,58% in pochi anni, stabilizzandosi su questo valore elevato. Non si tratta di una novità assoluta, ma piuttosto della fotografia di un travaso quasi completo di risorse e innovazione dal mondo accademico a quello aziendale.
Un oligopolio ristretto di giganti tecnologici
La concentrazione non si limita al settore nel suo complesso, ma si manifesta anche al suo interno. Un numero ristretto di aziende domina il rilascio di nuovi modelli. OpenAI, Google e Alibaba, da sole, coprono 42 dei 95 modelli censiti. Questa tendenza è ancora più evidente se si analizzano i principali attori:
- OpenAI: 19 modelli
- Google: 12 modelli
- Alibaba: 11 modelli
- Anthropic: 7 modelli
- xAI: 7 modelli
- DeepSeek: 5 modelli
Allargando la prospettiva storica dal 2014, la "piramide" della produzione di modelli notevoli si mostra con una base strettissima e un vertice occupato da pochissimi soggetti:
- Google: 191 modelli notable
- Meta: 86 modelli notable
- OpenAI: 59 modelli notable
- Microsoft: 42 modelli notable
- Nvidia: 42 modelli notable
Questa centralizzazione ha una conseguenza concreta e profonda per chiunque si occupi di intelligenza artificiale, sia a livello di policy, investimenti o implementazione aziendale: le decisioni tecniche che definiscono la frontiera dell'AI non sono più distribuite, ma diventano appannaggio di un gruppo ristretto di attori.
L'opacità crescente e la sfida alla riproducibilità
Meno trasparenza, più barriere
Sul fronte della trasparenza, i dati dell'AI Index mostrano un'inversione di rotta che meriterebbe molta più attenzione e discussione. Nel 2025, su 95 modelli notable, ben 80 sono stati rilasciati senza il codice di training corrispondente. Questo contrasta fortemente con i soli 4 modelli che hanno pubblicato il codice completo come open source. Se nel 2020 le due categorie erano quasi equivalenti, oggi il rapporto è di circa 20 a 1. Il modello di accesso dominante è diventato l'API, che nel 2025 ha caratterizzato 45 dei 95 rilasci.
Quando aziende come OpenAI decidono di non rilasciare il codice di training, o Anthropic smette di dichiarare i parametri, o Google non pubblica più la durata dell'addestramento, queste decisioni non rimangono confinate all'interno del laboratorio. Esse ridefiniscono l'epistemologia dell'intero settore, influenzando come la ricerca viene condotta e convalidata.
Parametri e dati celati
Parametri, dataset e durata del training sono informazioni sempre più spesso non dichiarate dai laboratori di frontiera. Il conteggio dei parametri, ad esempio, è rimasto vicino al trilione per tre anni consecutivi, non perché la crescita si sia fermata, ma perché i laboratori più avanzati hanno smesso di comunicarli pubblicamente, e l'ultima misura stabile risale a prima del 2023. Anche se il compute di training può essere stimato indirettamente, e l'Index conferma che la sua crescita non si è arrestata, la capacità di chi conduce ricerca esterna, audit o valutazioni di sicurezza è strutturalmente limitata. Questo perché i tre pilastri della riproducibilità scientifica – codice, dati e procedura – non sono più disponibili in modo sistematico.
Qui emerge un paradosso degno di nota: i modelli più capaci sono anche i meno trasparenti. Proprio nel settore in cui si invoca con maggiore insistenza la necessità di "sapere come funziona", si dichiara sempre meno, creando un divario sempre più ampio tra capacità e comprensione.
Il nodo geopolitico: la dipendenza da TSMC
Una crescita di compute globale con un collo di bottiglia
Il capitolo sul compute dell'AI Index 2026 rivela uno dei dati più significativi e geopolitici del rapporto. La capacità di calcolo globale per l'AI è cresciuta di 3,3 volte all'anno dal 2022, raggiungendo circa 17,1 milioni di H100-equivalenti. In questo scenario, Nvidia copre oltre il 60% di questa capacità, Google e Amazon una buona parte del resto, mentre Huawei detiene una quota più piccola ma in crescita.
Il punto cruciale, tuttavia, si trova a monte della filiera. La quasi totalità dei chip AI di fascia alta è fabbricata da TSMC, la Taiwan Semiconductor Manufacturing Company. Una singola azienda, situata in una singola isola, costituisce il nodo critico attraverso cui passa l'intera filiera globale dell'intelligenza artificiale. Sebbene l'espansione di TSMC negli Stati Uniti abbia iniziato a operare nel 2025, l'ordine di grandezza di tale produzione è ancora periferico rispetto al cuore taiwanese della produzione.
Una monocoltura industriale ad alto rischio
Definirla una "dipendenza" è riduttivo; si tratta di una vera e propria monocoltura industriale. E, come tutte le monocolture, essa è efficiente finché il contesto geopolitico e logistico rimane stabile. Il conflitto commerciale tra Stati Uniti e Cina, le tensioni nello Stretto di Taiwan, l'eventuale interruzione logistica per ragioni climatiche o geopolitiche: tutto ciò passa attraverso questo stesso, fragile collo di bottiglia. L'AI Index non formula proiezioni di scenario, limitandosi a registrare il dato. Il lettore è invitato a completare il ragionamento, consapevole delle immense implicazioni di questa concentrazione.
Infrastruttura fisica e impatto ambientale
L'impronta gigantesca dei data center
Mentre il dibattito si concentra su modelli e benchmark, l'infrastruttura fisica che li sostiene ha raggiunto dimensioni paragonabili a sistemi statali. Gli Stati Uniti, ad esempio, ospitano 5.427 data center, un numero oltre dieci volte superiore a quello di qualsiasi altro paese al mondo. La capacità di potenza dei data center AI ha toccato i 29,6 GW nel quarto trimestre del 2025, un valore paragonabile al consumo dello Stato di New York nelle ore di punta e superiore al fabbisogno energetico complessivo dei Paesi Bassi.
Emissioni e consumo idrico alle stelle
Il dato sulle emissioni è un corollario inevitabile di questa espansione. L'addestramento di Grok 4, rilasciato da xAI nel 2025, ha prodotto circa 72.816 tonnellate di CO2 equivalente. Per dare una misura: questo equivale a oltre 13mila anni di vita umana media, o più della somma delle emissioni totali di mille auto durante il loro ciclo di vita. Nel 2012, l'addestramento di AlexNet ne produceva appena 0,01 tonnellate. In tredici anni, l'ordine di grandezza si è spostato di ben sette zeri, evidenziando un incremento esponenziale e preoccupante dell'impatto ambientale dell'AI.
Un'eccezione meritevole di attenzione, seppur isolata, è DeepSeek v3. Questo modello cinese, comparabile per dimensioni ad altri "frontier lab", ha prodotto circa 597 tonnellate, un valore nettamente inferiore a quello di modelli di taglia simile. La ragione risiede in un mix energetico più pulito, nell'efficienza hardware, nella durata e nell'architettura del training. Non tutta la scala produce lo stesso impatto, e questa è una delle leve su cui il settore può ancora intervenire prima di normalizzare numeri che evocano ere geologiche.
Sul fronte idrico, il quadro è altrettanto allarmante. L'inferenza annuale di GPT-4o è stimata in circa 1,3-1,6 milioni di kilolitri, un volume d'acqua che potrebbe coprire il fabbisogno di acqua potabile di 12 milioni di persone. Quando si parla di "AI sostenibile", è raro che ci si soffermi a quantificare questi denominatori concreti, che dipingono un quadro di consumo di risorse a dir poco significativo.
La stasi della diversità di genere nella ricerca AI
Un dato piatto in un settore esponenziale
In mezzo a tante curve esponenziali, l'AI Index segnala un dato che è rimasto sorprendentemente piatto dal 2010 al 2025: la distribuzione di genere tra ricercatori e inventori AI. In paesi come Brasile, Corea del Sud e Giappone, oltre l'80% dei talenti identificati è maschile. L'Italia, con il 29,5% di donne tra i suoi migliori ricercatori AI, si colloca tra i paesi con una rappresentanza femminile relativamente più alta, insieme all'Arabia Saudita (32,3%), all'Australia (30,1%) e al Canada (29,6%). Tuttavia, nessun paese si avvicina minimamente alla parità.
Il dato più significativo non è la percentuale in sé, ma la sua stabilità temporale. Dal 2010 al 2025, il rapporto maschi/femmine nella ricerca AI è rimasto sostanzialmente invariato in quasi ogni paese misurato. Mentre tutto il resto del settore è cresciuto in modo esponenziale, questa dimensione è rimasta immobile. La crescita complessiva del talento non ha prodotto alcun riequilibrio, ha solo ingrandito in modo proporzionale lo stesso squilibrio che esisteva quindici anni fa.
L'efficienza come controtendenza
Qualità versus scala bruta
Un segnale controtendenza, che offre una prospettiva diversa sul futuro dell'AI, arriva dal lato dell'efficienza. OLMo 3.1 Think 32B, un modello rilasciato dall'Allen Institute for AI, possiede circa 32 miliardi di parametri, quasi 90 volte meno del trilione dichiarato di Grok 4. Eppure, su diversi benchmark di riferimento, i due modelli raggiungono risultati comparabili. L'Index attribuisce questa performance superiore a tecniche come il pruning, la deduplicazione e la curazione dei dati, piuttosto che alla semplice scala bruta dei parametri.
Questo dato è di particolare rilevanza non solo per chi fa ricerca, ma anche per chi progetta strategie aziendali. La traiettoria dominante del settore, caratterizzata da più parametri, più compute e più energia, non è l'unica strada percorribile verso l'aumento delle capacità. La qualità del dato, la metodologia di post-training e le tecniche di ottimizzazione architettonica rappresentano leve fondamentali che possono condurre a risultati simili con un impatto drasticamente ridotto. Questo suggerisce un potenziale cambio di paradigma, dove l'innovazione e l'efficienza potrebbero mitigare alcune delle preoccupanti tendenze attuali di centralizzazione, opacità e impatto ambientale.