Gli agenti di ricerca dell'intelligenza artificiale confermano spesso ciò che già sanno invece di cercare realmente in rete
Uno studio recente ha messo in luce un problema critico nel campo dei modelli di intelligenza artificiale che eseguono ricerche complesse in rete. Gli agenti di ricerca AI, invece di condurre effettivamente ricerche web per trovare nuovi dati, tendono in realtà a verificare le loro risposte basate su conoscenze interne già acquisite in fase di addestramento.
Dipendenza dalla conoscenza intrinseca
I ricercatori del Harbin Institute of Technology insieme a Xiaohongshu hanno dimostrato nel loro esperimento la cosiddetta "intrinsic knowledge dependence" (IKD), ovvero una dipendenza troppo marcata del modello dalla sua conoscenza interna.
I modelli AI leader come GPT-5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek-V4-Pro e Kimi-K2.6 continuano a ottenere punteggi crescenti su benchmark di riferimento come il BrowseComp. Tuttavia, la chiave di questo risultato non sta necessariamente nella loro capacità di effettuare ricerche esterne, ma piuttosto nell'abilità di attingere alle informazioni già memorizzate.
I benchmark tradizionali non riescono efficacemente a testare le capacità realmente indipendenti di ricerca. Il motivo è che, con lo sviluppo delle generazioni di modelli, una parte significativa delle informazioni necessarie al completamento delle task viene spostata in una memoria interna.
Sperimentando su 11 modelli diversi, i ricercatori hanno dapprima rimosso gli strumenti di ricerca e navigazione. Anche in assenza di accesso a internet, i modelli hanno mostrato un'abilità notevole: MiniMax M2.5 ha completato il 44.5% delle task su BrowseComp, mentre Kimi-K2.6 ha raggiunto il 62% sugli esercizi cinesi BrowseComp-ZH. Questi dati rivelano che una parte cospicua delle performance dei modelli si basa esclusivamente sulla loro memoria interna, prima ancora di avviare la ricerca effettiva.
La ricerca può peggiorare la risposta
Il secondo test del team ha evidenziato un aspetto ancora più paradossale. Quando è stato rimosso da ogni motore di ricerca ogni documento che supportasse un'eventuale risposta, le performance del modelli sono drasticamente calate. MiniMax M2.5, per esempio, ha passato da 44,5% a solo 8,0%, e Kimi-K2.6 ha registrato un crollo da 25,5% a 2,3%.
Le analisi dettagliate hanno mostrato che gli agenti AI, una volta dotati del mezzo per effettuare una ricerca, iniziano a cercare conferme per le ipotesi formulate inizialmente, perdendo gradualmente ogni capacità indipendente di formulare nuove informazioni. Questo comportamento si è rivelato dannoso non appena i risultati web non supportavano le ipotesi del modello.
- Gli agenti hanno effettuato il 55% dei query basandosi sulle proprie deduzioni.
- Rimane inferiore al 33% la percentuale in cui esse utilizzavano effettivamente i dati web rilevanti.
Da qui si evince chiaramente che il ciclo di ricerca è più diretto da parte del modello che da parte della evidenza emersa tramite internet.
Un benchmark dinamico al di là della frontiera della conoscenza
Per testare le capacità di ricerca in condizioni dinamiche e non prevedibili, i ricercatori hanno creato LiveBrowseComp, un nuovo benchmark formato da 335 domande elaborate da esseri umani.
- Le questioni richiedono informazioni che sono apparso negli ultimi 90 giorni.
- Sono impossibili da rispondere senza accesso a queste nuove informazioni.
- I fatti vengono tratti da fonti aggiornate continuamente come film, giochi, vulnerabilità di sicurezza o terremoti.
Questo benchmark esclude gli eventi di rilevanza mondiale, mantenendo solo fatti più oscuri ma comunque pubblici, che avevano poco peso nel processo di addestramento dei modelli. Per garantire un alto livello qualitativo, ogni domanda è valutata da esperti in tempo reale rispetto a chiarezza, difficoltà e validità.
Le performance umane su LiveBrowseComp sono confrontabili a quelle sulle risorse statiche. Il crollo delle performance dei modelli, dunque, non è dovuto alla difficoltà maggiore ma al blocco temporale che impedisce loro di utilizzare la loro conoscenza interna.
I punteggi non riflettono sempre le capacità effettive
Su LiveBrowseComp, i punteggi dei modelli in una prova chiusa (closed-book test) cadono al di sotto del 2% di accuratezza. Con la possibilità di usare strumenti di ricerca, i risultati migliorano di 25-40 punti percentuali ma restano comunque molto al di sotto delle performance ottenute su BrowseComp.
- MiniMax M2.5 aveva raggiunto il 44,5% su BrowseComp ma scende significativamente.
- DeepSeek v3.2, inizialmente a fondo classifica, si piazza in cima su LiveBrowseComp superando modelli precedenti.
Questi risultati rivelano che i punteggi su leaderboards statici non parlano della vera capacità di ricerca ma riflettono semplicemente il livello di conoscenza di partenza dei modelli.
Agenti richiedono più passi per raggiungere obiettivi veri
Sui benchmark tradizionali come BrowseComp, i modelli di ricerca spesso completano le task in pochi passi, sintomo che stanno semplicemente verificando informazioni già conosciute. LiveBrowseComp richiede molto più tempo e passaggi, rivelando che qui gli agenti eseguono ricerche vere, non solo di conferma.
- In BrowseComp il modello utilizza un piccolo numero di passi.
- LiveBrowseComp richiede più round di ricerca.
- Questo dimostra che gli agenti effettuano ricerca genuina solo quando i dati richiesti non sono già nella loro memoria.
Linee guida per una valutazione corretta degli agenti AI
I risultati dell'indagine sottolineano la necessità di benchmark che riflettano situazioni reali. Questo include eventi recenti e dati dinamici al fine di testare veramente la ricerca e non solo la conferma di conoscenza esistente.
Potenziali soluzioni proposte
- Adoptare benchmarks che richiedano informazioni recenti e non incluse nei dati di addestramento.
- Migliorare i segnali di formazione AI per incentivare la ricerca fondata su prove.
- Evitare il modello di ricerca di tipo "congettura-e-verifica".
La ricerca rivela che la comunità scientifica ha già identificato fenomeni simili. Ad esempio, un benchmark sviluppato dall’Università di Pechino ha rilevato che i modelli spesso danno le risposte corrette ma citano fonti errate, chiamate "attribution hallucination" (hallucinazione di attribuzione). Inoltre, CiteAudit ha scoperto che false citazioni sono state accettate in articoli presentati a conferenze principali di IA.
I problemi menzionati mostrano che modelli commerciali non sono in grado di ricon