Salesforce AI Research: anche i migliori modelli AI hanno limiti significativi

Developpez.com 27 aprile 2026

Una recente indagine condotta da Salesforce AI Research ha gettato nuova luce sulle capacità operative dei modelli di linguaggio di grandi dimensioni (LLM) più all'avanguardia. Pubblicata il 25 agosto 2025, questa ricerca rivela che persino i sistemi più performanti, come GPT-5, Grok-4 e Claude-4.0-Sonnet, manifestano ancora significative limitazioni nelle loro prestazioni reali. Nonostante il grande clamore che circonda questi modelli, i risultati dello studio evidenziano un notevole divario tra le aspettative e la loro efficacia pratica in contesti aziendali complessi.

Il benchmark MCP-Universe: valutare l'IA nel mondo reale

Per valutare in modo più rigoroso questi LLM, Salesforce AI Research ha introdotto un nuovo benchmark denominato MCP-Universe. Questo framework è stato specificamente progettato per sottoporre i modelli di linguaggio a una serie di compiti legati al Model Context Protocol (MCP), uno standard in rapida evoluzione che mira a connettere i sistemi di intelligenza artificiale con strumenti esterni. A differenza dei benchmark precedenti che spesso si basavano su simulazioni, MCP-Universe valuta le capacità dei modelli interagendo con server reali, offrendo così una prospettiva più autentica sulla loro affidabilità in ambienti aziendali concreti. I primi risultati ottenuti da questa metodologia di valutazione suggeriscono che, nonostante i progressi, anche i sistemi più avanzati sono tutt'altro che pienamente affidabili quando impiegati in scenari operativi reali.

Ambiti e compiti del benchmark

Il benchmark MCP-Universe si estende su sei domini principali, ciascuno progettato per testare diverse sfaccettature delle capacità degli LLM in contesti reali. Questi domini includono:

la navigazione;
la gestione di repository;
l'analisi finanziaria;
la progettazione 3D;
l'automazione dei browser;
la ricerca sul web.

Complessivamente, il framework comprende 231 compiti distinti, distribuiti su 11 server live che riproducono piattaforme di uso comune. Tra questi server figurano giganti del web come Google Maps e GitHub, piattaforme finanziarie come Yahoo Finance, software di modellazione come Blender, strumenti di automazione come Playwright e motori di ricerca come Google Search. Ogni dominio è articolato in una serie di sotto-compiti specifici, che vanno dalla pianificazione di itinerari su mappe alla realizzazione di analisi di portafoglio in ambito finanziario, fino alla creazione di oggetti complessi nella modellazione 3D. La complessità di questi compiti è stata intenzionalmente aumentata, richiedendo ai modelli di eseguire più passaggi sequenziali e di mantenere la coerenza delle informazioni su contesti sempre più lunghi.

Metodologia di valutazione basata sull'esecuzione

Un aspetto distintivo di MCP-Universe risiede nella sua metodologia di valutazione. A differenza di molti benchmark precedenti, che spesso si affidavano a un modello di linguaggio per giudicare l'output di un altro, il nuovo framework misura il successo basandosi sull'esecuzione effettiva. Ciò significa che la valutazione verifica se un modello formatta correttamente le risposte, se produce risultati coerenti nel tempo e se è in grado di operare efficacemente con dati in continua evoluzione. Per affrontare queste diverse dimensioni, Salesforce AI Research ha impiegato un insieme distinto di valutatori:

i valutatori di formato garantiscono la stretta conformità agli standard specificati;
i valutatori statici si occupano di fatti immutabili nel tempo, come le quotazioni storiche dei titoli azionari;
i valutatori dinamici estraggono dati reali in tempo reale per gestire informazioni in costante cambiamento, quali le fluttuazioni di mercato in diretta o le tariffe aeree.

Questa approccio multifattoriale assicura una valutazione più completa e realistica delle capacità operative dei modelli.

I risultati: un divario tra hype e realtà

I risultati complessivi dei test hanno rivelato un marcato divario tra l'entusiasmo generato dai modelli di IA e le loro reali prestazioni operative. Sebbene GPT-5 si sia posizionato come il leader tra tutti i sistemi testati, il suo tasso di successo globale si è attestato a un modesto 43,7%. Il modello ha dimostrato una buona efficacia nell'analisi finanziaria, completando con successo i due terzi dei compiti assegnati in questo dominio, e ha superato il 50% di successo nella progettazione 3D. Tuttavia, ha fallito più spesso di quanto non abbia avuto successo nei domini della navigazione e dell'automazione dei browser, evidenziando significative aree di debolezza.

A seguire GPT-5, troviamo Grok-4 con un tasso di successo del 33,3%, e poi Claude-4.0 Sonnet con il 29,4%. Tra le opzioni open source, GLM-4.5 si è distinto raggiungendo il 24,7% di successo, superando alcuni sistemi proprietari ma rimanendo comunque ben lontano dai leader di mercato in termini di prestazioni globali.

Fragilità nella gestione dei dati

Un'analisi più approfondita dei risultati, scomposta per tipo di valutatore, ha rivelato un'ulteriore fragilità intrinseca dei modelli attuali. Per quanto riguarda i controlli di formato, la maggior parte dei modelli ha ottenuto punteggi elevati; ad esempio, Claude-4.0 ha raggiunto quasi il 98% di conformità. Questo dato suggerisce che gli LLM sono generalmente in grado di seguire regole e istruzioni quando queste sono definite in modo rigoroso e inequivocabile.

Tuttavia, quando ai modelli è stato richiesto di produrre contenuti basati su dati statici o, ancor più problematico, su dati in costante evoluzione, il tasso di successo è drasticamente diminuito, attestandosi in un intervallo tra il 40% e il 60%. Anche in questo scenario, GPT-5 ha mantenuto la leadership nei casi dinamici con un tasso di successo del 65,9%, ma questo significa comunque che il modello ha fallito in oltre un terzo degli scenari che richiedevano l'elaborazione e la produzione di informazioni aggiornate e rilevanti.

Efficienza e ragionamento multistep

L'efficacia nell'esecuzione dei compiti ha mostrato anch'essa una notevole variabilità tra i modelli. GPT-5 ha richiesto in media poco più di otto passaggi per completare con successo un compito, mentre Grok-4 ne ha impiegati circa 7,7. Al contrario, modelli più piccoli come o3 sono riusciti a terminare in meno di cinque passaggi, pur mostrando una minore affidabilità complessiva. Questo evidente compromesso tra velocità e precisione sottolinea la fragilità intrinseca del ragionamento multistep, specialmente in domini caratterizzati da lunghe catene contestuali.

L'espansione del contesto è risultata particolarmente evidente in settori come la navigazione, l'automazione dei browser e la finanza, dove i server restituiscono blocchi consistenti di dati. Le sperimentazioni condotte sulla sintesi delle informazioni, volte a ridurre la lunghezza del contesto, hanno fornito risultati contrastanti: pur registrando leggeri miglioramenti nella navigazione, si sono osservate perdite di performance in altri ambiti. Questo evidenzia chiaramente come la semplice compressione dei dati non sia sufficiente a risolvere in modo definitivo il problema della gestione della memoria e della coerenza contestuale nei modelli attuali.

La sfida degli strumenti sconosciuti

Un'altra fonte ricorrente di fallimento è emersa nell'interazione dei modelli con strumenti sconosciuti o poco familiari. In diversi casi, i modelli hanno tentato di richiamare funzioni in modo errato o hanno definito parametri che hanno compromesso l'esecuzione dei compiti. Un esempio lampante si è verificato con il server Yahoo Finance, dove le richieste relative alle quotazioni azionarie richiedono l'indicazione di due date distinte (inizio e fine periodo). I modelli, tuttavia, tendevano spesso a definire queste date in modo identico, portando a errori irreversibili nell'esecuzione.

Per tentare di mitigare questo problema, Salesforce ha sperimentato una fase di esplorazione, permettendo ai modelli di "sperimentare" con gli strumenti prima di procedere all'esecuzione dei compiti veri e propri. Questa fase ha prodotto guadagni parziali: GPT-4.1 ha mostrato un leggero miglioramento nell'automazione dei browser e Claude nel dominio finanziario. Tuttavia, questa correzione non si è estesa a tutti i domini, suggerendo che l'apprendimento esplorativo degli strumenti è un'area che richiede ulteriori significativi sviluppi.

L'influenza dei framework sulle prestazioni

Il benchmark ha anche investigato l'influenza dei framework utilizzati sulla performance complessiva dei modelli. Confrontando le architetture sottostanti degli agenti, la configurazione ReAct ha generalmente superato Cursor, nonostante quest'ultimo fosse stato specificamente progettato come un agente per applicazioni aziendali. ReAct ha conseguito un tasso di successo globale più elevato in combinazione con Claude-4.0, mentre Cursor ha eccelso solo in domini isolati, come l'automazione dei browser.

Un'ulteriore osservazione interessante è emersa con il modello o3 di OpenAI: l'SDK Agent proprietario dell'azienda ha prodotto risultati più robusti rispetto a ReAct, in particolare nei settori della finanza e della progettazione. Questi dati suggeriscono che le sinergie tra i framework e i modelli possono alterare le prestazioni in modo significativo, tanto quanto le dimensioni e la complessità intrinseca dei modelli stessi, evidenziando l'importanza della scelta dell'infrastruttura di supporto.

L'impatto dei server non correlati

L'aggiunta di server MCP non correlati ha reso i compiti ancora più ardui per i modelli. Quando ai modelli è stato richiesto di gestire un numero maggiore di strumenti rispetto a quelli strettamente necessari per il compito, le prestazioni sono calate in modo drastico. Ad esempio, nel dominio della navigazione per posizione, il tasso di successo di Claude-4.0 è sceso dal 22% all'11% non appena sono stati inclusi server aggiuntivi nell'ambiente di test. Questo significativo declino sottolinea quanto facilmente il "rumore" o l'eccesso di informazioni irrilevanti possano destabilizzare l'orchestrazione degli strumenti da parte dei modelli. Si tratta di una sfida critica che le aziende dovranno affrontare e risolvere man mano che implementeranno soluzioni di intelligenza artificiale su larga scala.

Conclusioni e implicazioni per l'IA aziendale

Nonostante la diversità e la complessità dei test condotti, la conclusione dell'indagine di Salesforce AI Research è sorprendentemente coerente e inequivocabile. Gli attuali modelli di intelligenza artificiale, inclusi quelli all'avanguardia come GPT-5, sono ancora in grado di gestire efficacemente ragionamenti isolati o chiamate a funzioni semplici. Tuttavia, quando vengono inseriti in ambienti operativi reali, caratterizzati da dati in costante cambiamento, contesti complessi e lunghi, e da insiemi di strumenti sconosciuti o poco familiari, tendono a fallire nella maggior parte dei casi.

Il benchmark MCP-Universe ha il merito di aver esposto queste lacune in modo più chiaro e sistematico rispetto alle metodologie di valutazione precedenti, offrendo al contempo uno strumento prezioso per monitorare i progressi futuri nella risoluzione di queste problematiche da parte dei ricercatori. Per le aziende che intendono implementare l'IA su larga scala, i risultati di questa ricerca evidenziano una dura realtà: la creazione di agenti affidabili e robusti non dipenderà esclusivamente dallo sviluppo di modelli più grandi o più potenti. Richiederà piuttosto l'adozione di framework più intelligenti, una gestione del contesto più sofisticata e l'implementazione di protezioni più solide e intuitive per l'utilizzo degli strumenti.

Questa analisi mette seriamente in discussione alcune delle affermazioni ottimistiche di aziende di IA, come Microsoft, che sostengono che gli strumenti di intelligenza artificiale stiano già migliorando significativamente la produttività degli sviluppatori. La ricerca suggerisce che, mentre il potenziale è immenso, la strada verso un'IA pienamente affidabile e universalmente efficace in contesti aziendali reali è ancora lunga e complessa.

Leggi l'articolo originale →

← Torna alle news