I tuoi agenti AI necessitano di un terminale e non soltanto di un database vettoriale
Quando i flussi di lavoro agenziali falliscono, gli sviluppatori spesso assumono che il problema risieda nella capacità di ragionamento del modello sottostante. In realtà, l'informazione limitata fornita dall'interfaccia di recupero è spesso il principale fattore limitante. Una tecnica chiamata interazione diretta con il corpus (DCI) permette agli agenti di bypassare completamente i modelli di embedding, permettendo loro di cercare direttamente database grezzi usando strumenti da riga di comando standard.
I limiti del recupero classico
Nel recupero classico, come RAG (Retrieval-Augmented Generation), i documenti vengono divisi in segmenti, convertiti in rappresentazioni vettoriali (o embedding) e indicizzati in un database vettoriale. Quando un sistema AI elabora una query, un retributore filtra l'intero database per fornire una lista ordinata di “top-k” frammenti di documenti. Tutto l’evidenza deve passare attraverso questa meccanica di scoring prima che qualsiasi ragionamento successivo abbia luogo.
Tuttavia, le applicazioni agenti moderne richiedono molto di più. Come hanno sottolineato gli autori del paper DCI in un'intervista con VentureBeat, "il recupero denso è molto utile per un ampio ricupero semantico, ma quando un agente deve risolvere un compito multistep, spesso ha bisogno di cercare stringhe esatte, numeri, versioni, codici di errore, percorsi di file o combinazioni sparse di indizi". Questi dettagli difficili da cogliere tramite analisi semantica sono esattamente dove la somiglianza semantica può diventare fragile.
A differenza della ricerca statica, gli agenti devono anche aggiornare dinamicamente la loro strategia di ricerca in seguito a osservazioni parziali o localizzate. I vincoli lessicali esatti e l'ipotesi di perfezionamento in multi-step sono difficili da eseguire con sistemi di recupero semantico. Dal momento che il retributore comprime l’accesso in un passo unico, qualsiasi evidenza ritenuta irrilevante non può essere recuperata successivamente, indipendentemente da quanto avanzati siano le capacità di ragionamento dell’agente. Gli autori spiegano che i flussi di ricerca attuali possono diventare un collo di bottiglia perché "decidono troppo presto cosa l’agente può vedere".
Interazione diretta con il corpus (DCI)
Questo accesso diretto risolve un problema fondamentale negli ambienti aziendali: la data staleness (dati desuetti). Gli indici di embedding sono sempre un momento specifico e richiedono notevole elaborazione per essere mantenuti aggiornati.
"In molti ambienti aziendali, i dati non sono una collezione di documenti stabile. Si tratta di report finanziari giornalieri, log in tempo reale, ticket, commit, file di configurazione, cronologie di incidenti e documenti interni in continua modifica," spiegano gli autori del lavoro. DCI permette all'agente di ragionare sullo stato corrente dell’ambiente anziché sugli indici vettoriali datati.
DCI vs Ricerca Classica (Fonte: arXiv)
L'agente opera in un ambiente simile al terminale, dove le osservazioni sono gli output grezzi degli strumenti, come percorsi di file, tratti testuali corrispondenti e righe adiacenti. Gli strumenti fondamentali forniti da DCI sono pochi ma espressivi. Gli agenti utilizzano comandi come “find” e “glob” per navigare le strutture di directory e localizzare file. Per corrispondenze esatte, usano “grep” e “rg” per trovare parole chiave, modelli regex o stringhe esatte. Quando si richiede un'ispezione locale, utilizzano strumenti come “head”, “tail”, “sed”, “cat” e script Python leggeri per osservare il contesto intorno ai corrispondenti o per leggere sezioni specifiche di un file.
L’agente può combinare questi strumenti con pipe shell per eseguire logiche di ricerca complesse in un unico passo. Un agente può collegare comandi per impostare vincoli lessicali rigorosi, ad esempio cercando un termine in un file e dirigendo l'output per una seconda ricerca. Può anche combinare diversi indizi deboli in un corpus trovando un tipo specifico di file, cercando una parola chiave come “report” e filtrando per un anno come “2024”. Può immediatamente verificare un’ipotesi controllando le righe esatte intorno a una corrispondenza.
In questo modello, DCI delega l’interpretazione semantica direttamente all'agente, anziché affidarsi a una ricerca basata su embedding.
Due versioni del sistema DCI
- DCI-Agent-Lite: un setup leggero a basso costo costruito sul modello GPT-5.4 nano con interazioni esclusivamente terminali.
- DCI-Agent-CC: la versione ad alta performance, progettata per team con budget computazionale maggiore, utilizza il modello Claude Code con il motore Claude Sonnet 4.6.
Il primo supporta esclusivamente interazioni grezze simili ai comandi bash e la lettura di file base. Data la potenziale saturazione della memoria in modelli di dimensioni ridotte, il sistema sfrutta strategie di gestione del contesto durante esplorazioni a lungo raggio.
DCI in azione
Gli autori hanno testato entrambi i setup con benchmark di ricerca agenziale come BrowseComp-Plus, QA impegnativa e test di fattori scientifici. DCI è stato confrontato con tre linee di base: retributori tradizionali, modelli semantici densi e sistemi di reranking.
I dati mostrano che DCI supera sistematicamente le linee di base basate su recupero tradizionale e embedding. Su BrowseComp-Plus, DCI ha portato ad un aumento dell'accuratezza e una riduzione significativa dei costi d'API.
- Swap from Qwen3 Retriever a DCI su Claude Sonnet 4.6 aumenta l'accuratezza da 69.0% a 80.0%.
- DCI-agent-Lite con GPT-5.4 nano compete con OpenAI o3 modelli tradizionali risparmiando più di $600.
Domini di utilità chiari
Gli autori evidenziano che DCI è utilissimo quando è richiesta la localizzazione esatta di prove in ambienti dinamici. Questi includono analisi di incidenti, debug di grandi codebases, ricerca in log, indagini di conformità, tracciabilità o analisi causale multi_documento.
In un compito difficile, l’agente ha dovuto identificare una partita calcistica precisa partendo da 12 indizi interconnessi: numero esatto di spettatori, gialli, data di nascita dei giocatori. Il recupero classico ha fallito a causa di frammenti isolati; il DCI ha esplorato la directory, trovato la partita inglese del 1990 contro il Belgio, controllando righe specifiche, citato interviste e verificato le date di nascita da file di Wikipedia.
Limiti e implementazione pratica
DCI ha un chiaro spettro d’operatività: eccelle in profondità di ricerca ma ha difficoltà a