Le principali tendenze dell'intelligenza artificiale per il 2025 secondo IBM

IBM 22 aprile 2026

Mentre ci avviciniamo alla metà dell'anno, è un'ottima occasione per rivedere le principali tendenze del 2025 in materia di intelligenza artificiale e riflettere su ciò che i mesi restanti ci riservano. Data l'ampiezza e la profondità dello sviluppo dell'IA, un'analisi esaustiva di tutte le tendenze in questo campo è praticamente impossibile. Questo articolo, infatti, non fa eccezione alla regola, riducendo il numero di tendenze a dieci: cinque progressi che hanno caratterizzato la prima metà dell'anno e altre cinque che dovrebbero giocare un ruolo importante nei mesi a venire.

Le tendenze dell'IA sono determinate non solo dai progressi nei modelli e negli algoritmi di IA stessi, ma anche dalla gamma sempre più ampia di casi d'uso a cui vengono applicate le capacità dell'IA generativa. Man mano che i modelli migliorano in capacità, versatilità ed efficienza, lo stesso accade per le applicazioni, gli strumenti e gli altri flussi di lavoro alimentati dall'IA che ne derivano. Comprendere appieno l'evoluzione dell'attuale ecosistema dell'IA richiede quindi una decifrazione contestuale delle cause e degli effetti delle scoperte nel machine learning.

Questo articolo esplora principalmente le tendenze in corso il cui impatto reale potrebbe concretizzarsi entro pochi mesi: in altre parole, le tendenze con un impatto tangibile principalmente nel 2025. Esistono, naturalmente, altre iniziative di IA più consolidate e familiari. Ad esempio, sebbene siano stati fatti progressi sporadici nei veicoli completamente autonomi (progetti pilota di robotaxi sono stati avviati in una manciata di città americane, con ulteriori test a Oslo, Ginevra e in 16 città cinesi), probabilmente ci vorranno ancora anni prima che si diffondano su larga scala.

Molte altre importanti macro-tendenze dell'IA, come l'avvento degli agenti di IA o la perturbazione dei comportamenti di ricerca e del SEO da parte dell'IA, sono vaste, multifacettate e già ampiamente trattate altrove, e sono state quindi tralasciate a favore di sviluppi più mirati che non hanno ricevuto un'attenzione mediatica così ampia. La newsletter settimanale Think di IBM, ad esempio, fornisce tutte le notizie sull'IA, il cloud e molti altri argomenti, coprendo queste e altre tematiche in modo approfondito.

L'evoluzione del pragmatismo nell'IA

Il progresso non passa necessariamente attraverso un afflusso costante di idee completamente nuove. La maggior parte delle tendenze maggiori in materia di IA durante il primo semestre del 2025 riflettono cambiamenti nel modo in cui il settore applica idee esistenti, alcune in maniera pragmatica e produttiva, altre meno. Oggi, i modelli non sono solo molto più performanti rispetto a quelli di un tempo, ma anche molto meno costosi da utilizzare. Prendiamo, ad esempio, un grafico di SemiAnalysis: in meno di due anni, il prezzo per token per ottenere risultati equivalenti sul test MMLU è stato diviso per più di dieci. Questo non sorprende le persone che hanno seguito gli indicatori di performance delle generazioni successive di modelli. Ma nel suo complesso, questo ritmo di miglioramento in costante accelerazione illustra l'entusiasmo generato dall'IA generativa meglio delle capacità già impressionanti dei modelli di IA attuali.

Uno studio stima il ritmo di miglioramento algoritmico a circa il 400% all'anno. In altre parole, i risultati di oggi possono essere ottenuti un anno dopo utilizzando un quarto della potenza di calcolo, e questo senza tenere conto dei miglioramenti simultanei nel calcolo (vedi: Legge di Moore) o nei dati di addestramento sintetici. La versione iniziale di GPT-4, che si presume avesse circa 1,8 miliardi di parametri, ha ottenuto un punteggio del 67% su HumanEval, un popolare benchmark di performance di codifica. Due anni dopo, IBM Granite 3.3 2B Instruct, pur essendo 900 volte più piccolo, ha ottenuto un punteggio dell'80,5%. Questa espansione esponenziale dell'economia dei modelli, più di ogni altra cosa, è ciò che rende possibile l'era emergente degli agenti di IA.

L'ascesa dei sistemi multi-agente

L'aspetto pratico dei grandi modelli linguistici (LLM) si sviluppa più rapidamente delle loro capacità intrinseche, consentendo il dispiegamento di sistemi multi-agente complessi. In questi sistemi, un insieme di modelli può pianificare, eseguire e coordinare compiti complessi in modo autonomo, senza che i costi di inferenza aumentino vertiginosamente. Questo rappresenta un passo significativo verso un'IA più autonoma e capace di gestire processi end-to-end con maggiore efficienza e affidabilità.

L'era dei modelli di ragionamento e lo scaling dell'inferenza

L'uscita dell'o1 di OpenAI (presumibilmente riferendosi a GPT-4o o a un modello simile) ha introdotto una nuova "avenue" per le prestazioni dei modelli. Il suo spettacolare miglioramento rispetto alle prestazioni di punta nei benchmark e nella codifica altamente tecnica ha scatenato una vera e propria corsa agli armamenti nei cosiddetti "modelli di ragionamento". Le loro prestazioni migliorate nei compiti che richiedono capacità logiche di presa di decisione giocano un ruolo importante nello sviluppo dell'IA agentica. Ma, come spesso accade con la tecnologia dell'IA, la frenesia iniziale intorno alle prestazioni grezze ha recentemente ceduto il passo a una ricerca dell'implementazione più pratica.

L'intuizione alla base dei modelli di ragionamento deriva da una ricerca che dimostra come l'aumento delle risorse di calcolo al momento del test (utilizzate per generare un output) potrebbe migliorare le prestazioni del modello tanto quanto l'aumento delle risorse di calcolo al momento dell'addestramento (utilizzate per addestrare un modello). Questa idea si è tradotta in tecniche che permettono di affinare i modelli in modo da incoraggiare la generazione di "processi di pensiero" più lunghi e complessi prima dell'output finale, una scuola di tecniche generalmente chiamata "inference scaling" (scalabilità dell'inferenza).

Tuttavia, lo scaling dell'inferenza significa anche un aumento dei costi di inferenza e della latenza. Gli utenti devono pagare (e attendere) tutti i token che il modello genera mentre "riflette" sulle risposte finali, e questi token di riflessione incidono sulla finestra di contesto disponibile. Alcuni casi d'uso giustificano questo tempo e questi calcoli aggiuntivi, ma per molti scenari si tratta di un vero e proprio spreco di risorse. Detto questo, passare costantemente da un modello di ragionamento a un modello "standard" compito per compito, invito per invito, non è assolutamente pratico.

L'innovazione dei modelli di ragionamento ibridi

Per l'immediato, la soluzione risiede nei "modelli di ragionamento ibridi". Questi modelli offrono la flessibilità di sfruttare le capacità di ragionamento quando necessario e di dare priorità all'efficienza quando non lo è. Questo approccio intelligente permette agli utenti di ottimizzare l'utilizzo delle risorse computazionali in base alle specifiche esigenze del compito. Alcuni esempi di questa innovazione includono:

A febbraio, IBM Granite 3.2 è diventato il primo LLM a offrire una modalità "riflessione" commutabile, consentendo agli utenti di sfruttare il ragionamento quando ne hanno bisogno e di dare priorità all'efficienza quando non ne hanno bisogno.
Claude 3.7 Sonnet di Anthropic ha seguito l'esempio, permettendo agli utenti API di avere un controllo preciso sulla durata della "riflessione" del modello.
Google ha introdotto una funzione di modularità "thinking" simile per il Gemini 2.5 Flash.
Qwen3 di Alibaba, come IBM Granite, permette di attivare o disattivare la riflessione.

La ricerca in corso mira a comprendere meglio cosa accade realmente quando i modelli di ragionamento "pensano", e a determinare in che misura le tracce di ragionamento della catena di pensiero estesa (CoT) contribuiscano realmente ai risultati. Un articolo pubblicato ad aprile suggerisce che per alcune attività, i modelli di ragionamento possono essere efficaci senza produrre pensieri espliciti. D'altra parte, uno studio di Anthropic di inizio mese afferma che i risultati CoT presentati all'utente potrebbero non riflettere realmente ciò che il modello "pensa". Questo evidenzia la complessità e le sfumature ancora da esplorare nel funzionamento interno di questi modelli avanzati.

L'importanza crescente dell'open source

Lo sviluppo dell'IA si è sempre fortemente basato sullo sfruttamento di repository di conoscenze open source, come Wikipedia e GitHub. La loro importanza non farà che aumentare in futuro, soprattutto dopo le rivelazioni molto pubblicizzate secondo cui grandi sviluppatori di IA hanno addestrato modelli su una pletora di libri piratati. Questo fatto scoraggerà verosimilmente l'uso continuato di fonti non autorizzate, spingendo l'industria a un maggiore affidamento su risorse etiche e legalmente accessibili. La trasparenza e la collaborazione all'interno della comunità open source diventeranno quindi ancora più cruciali per il progresso sostenibile dell'IA.

In conclusione, il panorama dell'intelligenza artificiale per il 2025 è caratterizzato da un'evoluzione rapida e pragmatica. Le innovazioni non riguardano solo la creazione di nuove capacità, ma soprattutto l'ottimizzazione e l'applicazione intelligente di quelle esistenti. Dalla riduzione dei costi computazionali all'emergere di agenti autonomi e modelli di ragionamento ibridi, l'IA sta diventando sempre più accessibile, efficiente e potente, promettendo di trasformare numerosi settori nei prossimi mesi e anni.

Leggi l'articolo originale →

← Torna alle news