Retrieval-Augmented Generation 2.0: Qualità, sicurezza e struttura dei costi

BigData-Insider 12 aprile 2026

Molte iniziative nel campo della Retrieval-Augmented Generation (RAG) rimangono bloccate nello stadio della "demo wow": offrono risposte impressionanti, ma mancano di metriche di qualità chiaramente definite, garanzie di sicurezza affidabili e una struttura di costi sostenibile per il funzionamento. RAG 2.0 non intende più il retrieval come una semplice interrogazione di database, ma come un processo orchestrato, misurabile e a prova di revisione.

RAG 2.0 unisce orchestrazione integrata, Evals, guardrail e governance con KPI chiari, per piattaforme verificabili e stabili in produzione.

In sostanza, si tratta di stabilire la connessione tra ricerca semantica e sintesi di risposta generativa come un'architettura pronta per la produzione, con responsabilità chiare e un impatto verificabile sui reparti specialistici.

I moderni sistemi RAG richiedono molto più che la ricerca semantica e gli embedding. La prontezza per la produzione si ottiene solo attraverso una pianificazione precisa delle query, una valutazione sistematica e robusti meccanismi di controllo. Integrati da governance dei vettori, vera capacità multilingue, KPI chiaramente definiti e profili di costo e latenza ottimizzati, si crea un'architettura che non solo risponde in modo affidabile, ma può anche essere gestita in modo verificabile, controllabile e dimostrabilmente sicuro.

1) Perché le architetture RAG classiche falliscono

Nella pratica, le implementazioni "RAG 1.0" falliscono ripetutamente a causa di tre sfide centrali:

Drift: Le basi di conoscenza sottostanti sono dinamiche; gli indici devono essere continuamente aggiornati, e l'allineamento degli embedding può essere compromesso da nuove versioni del modello. Di conseguenza, la comparabilità dei risultati perde progressivamente affidabilità nel tempo.
Allucinazioni: Senza chiare prove di attribuzione e cicli di valutazione continui (Evals), le risposte, sebbene fluide, spesso non sono fattualmente affidabili o verificabili.
Access Control: I database vettoriali spesso supportano solo namespace a granularità grossolana. Manca di solito un controllo degli accessi a granularità fine, basato su ruoli o attributi, a livello di documento o di chunk.

Esempio pratico (banca, direttive interne)

Un team indicizza migliaia di documenti di conformità interni in formato PDF. Dopo il passaggio a un nuovo modello di embedding, vengono reindicizzati solo i documenti appena aggiunti; i vecchi embedding rimangono invariati. Gli esperti di settore ricevono quindi risposte contraddittorie perché il sistema mescola versioni di direttive obsolete e attuali. Inoltre, la ricerca mostra frammenti di direttive per le quali l'utente non ha l'autorizzazione, un grave scostamento tra Identity and Access Management (IAM) e il processo di retrieval.

2) Architettura di RAG 2.0: Orchestrazione, Chunking, Evals e Osservabilità

Orchestrazione del retrieval

Al processo di ricerca vero e proprio viene anteposto un Planner, che identifica l'intenzione effettiva dell'utente (Intent), esegue i Query-Rewrites (sinonimi, termini di dominio), separa le sotto-query per specifiche strutture di dati (tabelle, FAQ, testo libero) e seleziona dinamicamente il numero ottimale di risultati (Top-k). I risultati vengono fusi tramite Reranking (ad esempio, utilizzando Cross-Encoder). Per query numeriche o basate su tabelle, viene attivato specificamente un Tabular-Retriever, mentre le domande su date o versioni considerano esclusivamente stati di conoscenza validi.

Chunking sensibile alla struttura

Invece di un approccio generico "one-size-fits-all", vengono impiegate strategie di chunking sensibili alla struttura:

Chunking basato su titoli per la coerenza logica
Finestre con sovrapposizione per garantire il contesto della frase
Percorsi speciali per la conservazione intatta delle strutture di tabella (conservazione celle/righe) e delle immagini (layer OCR separato)

Essenziale è una disciplina rigorosa dei metadati dei chunk: ogni chunk deve contenere metadati come versione, periodo di validità, lingua e classificazione (ad esempio, "PII=sì/no"). Senza questi metadati, né la governance né una verificabilità affidabile sono possibili.

Evals come parte integrante del ciclo

Le valutazioni avvengono su due livelli:

Offline-Evals con Gold-Sets verificano Contextual Precision/Recall, Faithfulness/Attribution e la rilevanza delle risposte. Inoltre, vengono simulate attacchi, ad esempio tramite Red-Team-Prompts come Prompt-Injection o varianti Jailbreak.
Misurazioni online rilevano il tasso di Groundedness (percentuale di risposte comprovabili), il tasso di clic sulle citazioni (Citation Click-Through), la latenza p95, il costo per 100 query e la frequenza di attivazione dei Guardrail.

Tutte le metriche vengono protocollate per versione del prompt e versione del modello, al fine di garantire una tracciabilità completa del livello di qualità nel tempo.

Osservabilità e tracce di audit

Ogni esecuzione RAG genera un set completo di artefatti di audit:

Il prompt utente pseudonimizzato
Il piano di query eseguito
Gli hit del retriever con ID e versioni dei documenti associati
La versione del modello e del prompt utilizzati
Le decisioni dei guardrail
I costi e i tempi di latenza sostenuti

Questa catena continua costituisce la base per la riproducibilità, l'analisi sistematica degli errori (Post-Mortem) e la necessaria prova di conformità nei confronti di revisori interni ed esterni.

Governance dei vettori e cancellazione dei dati

Gli embedding possono essere considerati dati (indirettamente) personali se è possibile una ricostruzione o una derivazione di conclusioni. RAG 2.0 implementa quindi obbligatoriamente:

Crittografia dei dati a riposo (at rest) e durante la trasmissione (in transit)
Namespace per tenant per una stretta separazione dei clienti
Meccanismi Time-to-Live (TTL) e Tombstoning per garantire il diritto alla cancellazione
Protocolli di tutti i job di (re-)embedding
Monitor di deriva che controllano gli spostamenti nella distribuzione degli embedding o nel valore di recall

I job di reindicizzazione sono sempre versionati e tracciabili in modo trasparente. In questo modo è sempre possibile spiegare su quale base dati sia stato ottenuto un determinato risultato.

3) Sicurezza e conformità nel contesto UE: Filtri PII, retrieval consapevole dei ruoli e auditabilità

Catena di filtri PII/PHI

Una catena di filtri multistadio per Personally Identifiable Information (PII) e Protected Health Information (PHI) viene applicata sia prima che dopo il retrieval. Le immissioni dell'utente vengono controllate per PII e mascherate se necessario. I passaggi dei risultati vengono riclassificati prima dell'iniezione nell'LLM. I policy-gate impediscono che fonti con una classe di protezione più alta confluiscano in chat con una classificazione inferiore.

Data: 08.12.2025

Leggi l'articolo originale →

← Torna alle news