Gli agenti di ricerca basati sull'intelligenza artificiale non falliscono nella ricerca ma falliscono nello chiedere le domande giuste quando le query sono ambigue
Uno studio ha dimostrato che gli agenti di ricerca dell'AI non falliscono effettivamente nel condurre ricerche complesse, ma rivelano criticità quando non riescono a formulare le domande corrette agli utenti di fronte a query ambigue. Questo è emerso da DiscoBench, un nuovo benchmark sviluppato da Tencent Hunyuan e Tsinghua University che valuta la capacità degli agenti di riconoscere l'ambiguità e chiedere chiarimenti, anziché procedere con ipotesi errate.
Test realistico su domande imprecise
DiscoBench include 211 task distribuiti in 11 diversi domini del sapere, come giochi, sport, musica, cinema, scienza e politica, e presenta in totale 463 punti di ambiguità. Al momento di affrontare un checkpoint, l’agente può scegliere tra continuare la ricerca, chiedere una spiegazione all’utente o fornire una risposta immediata.
L’implementazione del benchmark permette di testare quattro tipi principali di ambiguità: identità multiple, differenze temporali, criteri di valutazione soggettivi o frasi con errori fatti. La stragrande maggioranza dei test è in cinese per riflettere le query comunemente presenti nei motori di ricerca di quel mercato.
Le prestazioni degli agenti
La squadra ha testato 11 modelli principali: Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, Doubao Seed 2.0 Pro, DeepSeek V4 Pro, Kimi K2.6, GLM 5.1, Qwen3.6 Max, MiniMax M2.7, MiMo v2.5 Pro e Hunyuan 3.0 Preview. Il risultato più alto, 43.1 percento, è stato conseguito da Doubao Seed 2.0 Pro senza un promemoria esplicito relativo all’ambiguità.
Una notevole quantità di query non portano a un miglioramento della correttezza: ad esempio, Claude Opus 4.7 effettua più ricerche delle altre modello ma mostra risultati simili a Gemini 3.1 e Dubao. Questi dati indicano che un elevato numero di azioni non garantisce un’accuratezza migliore senza una strategia di interazione con l'utente.
Ambiguità rilevata senza azione concreta
Un test ulteriore coinvolge un “prompt guidato” che spinge modelli a chiedere chiarimenti quando riscontrano dubbi. Questo sistema ha portato l’accuratezza passo dopo passo da 28.6% a 33.7%, e l’abilità nel rilevamento da 45.3% a 64.9%. Tuttavia, per Claude Opus 4.7, l’utilizzo del “prompt guidato” ha leggermente ridotto l’accuratezza complessiva, nonostante una migliorata capacità in fase di checkpoint.
Differenze nella strategia di ricerca
- Modelli che chiedono un chiarimento dopo una ricerca iniziale ("SearchThenAsk") mostrano un tasso di successo medio del 93.4%.
- Coloro che avanzano un’ipotesi senza chiedere chiarimenti (DirectGuess) raggiungono un successo solo del 56.5%.
- I modelli che effettuano molte ricerche ma non chiedono conferme (SearchHeavyGuess) riescono persino peggio, con un tasso medio del 51.9%.
Questo comporta chiaramente che, una volta riconosciuta l’ambiguità, l’interazione con l’utente è cruciale per il successo complessivo dell’agente AI.
Due abilità chiave per l’agente di ricerca
Sono due le abilità fondamentali che i modelli devono sviluppare: riconoscere quando chiedere un chiarimento e formulare una domanda in grado di accelerare la ricerca. Mancando una di queste due competenze, i risultati si riducono drasticamente. Il modello Qwen3.6 Max, ad esempio, ha una Detection F1 del 16%, ma quando chiede, la sua accuratezza in termini di correttezza delle domande è alta. MiniMax M2.7 chiede con maggiore frequenza, ma solo il 60-67% delle sue domande effettivamente spostano la ricerca verso un risultato.
Tipi di ambiguità che gli agenti affrontano
Le ambiguità vengono suddivise in: errore fatti, ambiguità di entità e ambiguità di criteri. Secondo i dati, gli errori fatti sono i più semplici da rilevare perché generano contraddizioni evidenti. Ambiguità di entità e criteri sono più complesse in quanto non producono immediatamente incoerenze, rendendo difficile per l’AI comprendere quando chiedere ulteriore informazione.
La necessità di una strategia di dialogo migliorata
Un buon agente dovrà imparare a convertire l’incertezza della ricerca in un dialogo produttivo con l'utente. Senza strumenti di ricerca, i modelli testati mostrano un crollo totale delle loro performances. I dati evidenziano che, rimuovendo le ambiguità, i modelli migliorano in una fascia che va dal 26.8% al 40.2% dipendendo dal modello.
Conclusioni e prospettive future
I ricercatori concludono che, affinché gli agenti di ricerca dell’AI diventino veramente validi in contesti reali, dovranno sviluppare strategie di interazione avanzate per gestire incertezza e ambiguità, insieme al potenziamento delle capacità esistenti di ricerca e ragionamento. Altri studi confermano che modelli oggi hanno grandi limiti nell'effettivo utilizzo di informazioni fresche e nella verifica di fonti.