L'impatto del RAG sull'IA e la protezione dei dati
Block nomic Studio - stock.adobe
di
Oliver Schonschek
Ultimo aggiornamento: 12 novembre 2025
“La Generazione potenziata da recupero (RAG) è un metodo di intelligenza artificiale che integra un modello linguistico di grandi dimensioni (LLM) con una buona funzionalità di ricerca, ad esempio in una collezione di documenti, in una banca dati o in un grafo di conoscenza, per generare risposte”, spiega il Fraunhofer-Institut für Experimentelles Software Engineering IESE. Il RAG offre diversi vantaggi: l'affidabilità dell'IA può essere aumentata e, inoltre, è possibile utilizzare gli LLM anche per i dati interni dell'azienda utente.
Non solo la scienza si occupa delle possibili conseguenze del RAG, come l'affidabilità e la certezza giuridica dei contenuti generati dall'IA tramite la Generazione potenziata da recupero. Anche le autorità di protezione dei dati esaminano gli effetti del RAG sui sistemi di IA.
RAG e la protezione dei dati
“I sistemi RAG hanno un grande potenziale e offrono un nuovo punto di partenza innovativo per lo sviluppo digitale ‘made in Europe’”, commenta, ad esempio, l'incaricato statale per la protezione dei dati e la libertà di informazione del Baden-Württemberg. “Aziende e autorità dispongono di un'enorme quantità di dati personali e non personali, che finora sono spesso stati scarsamente utilizzati. Con i sistemi RAG possono rendersi più indipendenti dai grandi fornitori e sviluppare i loro sistemi in modo sovrano. Dal punto di vista della protezione dei dati, è assolutamente sensato gestire sistemi controllabili che proteggano al meglio i dati personali.”
La Conferenza delle autorità di protezione dei dati indipendenti del Bund e dei Länder (DSK) ha pubblicato una guida all'orientamento per aziende e autorità (PDF), rivolta a chi utilizza o intende utilizzare sistemi di IA con Generazione potenziata da recupero (RAG). La guida offre indicazioni legali e tecniche su come sfruttare il potenziale di tali sistemi di IA e allo stesso tempo ridurre i rischi per gli interessati.
Meike Kamp, incaricata di Berlino per la protezione dei dati e la libertà di informazione e presidente del DSK nel 2025, ha motivato la nuova guida all'orientamento: “I sistemi RAG possono supportare aziende e autorità nell'utilizzo dei vantaggi dell'IA moderna e nel contempo ridurre i rischi associati per i diritti e le libertà delle persone interessate. È fondamentale, tuttavia, che il loro utilizzo sia conforme alla protezione dei dati fin dall'inizio. I responsabili devono garantire trasparenza, limitazione delle finalità e il rispetto dei diritti degli interessati in ogni momento.”
Tra i vantaggi del RAG nei sistemi di IA, le autorità di vigilanza annoverano il fatto che i sistemi RAG possono essere sviluppati, gestiti e controllati autonomamente, e quindi implementare la protezione dei dati fin dalla progettazione. Inoltre, possono consentire l'uso di modelli più piccoli e anche gestiti localmente, il che permette, ad esempio, un funzionamento del sistema senza la trasmissione di dati personali a terzi come gli hyperscaler. In questo modo, il metodo RAG può dare un contributo importante alla sovranità digitale, secondo gli esperti di protezione dei dati.
Anche con il RAG esistono rischi per i dati
I rischi per la protezione dei dati personali non devono essere trascurati, anche con l'uso del RAG. I sistemi RAG, ad esempio, non eliminano i problemi di protezione dei dati di un modello linguistico di grandi dimensioni (LLM) addestrato illegalmente.
Inoltre, dal punto di vista delle autorità di protezione dei dati, rimane una sfida garantire la trasparenza, la limitazione delle finalità e l'attuazione dei diritti degli interessati in tutto il sistema. Gli enti responsabili che intendono utilizzare sistemi RAG devono quindi effettuare le valutazioni sulla protezione dei dati delle singole elaborazioni caso per caso e mantenere sempre aggiornate le proprie misure tecnico-organizzative.
La sola aggiunta di fonti e dati interni o di altro tipo alla base dati di un LLM non elimina semplicemente i problemi di protezione dei dati che possono sussistere in un LLM.
Le autorità di vigilanza, tra l'altro, sottolineano quanto segue:
- In caso di integrazione di fonti di dati esterne, la liceità dell'utilizzo, l'idoneità e la correttezza dei dati e dei risultati ottenuti devono essere adeguatamente verificate e garantite.
- L'integrazione di dati esterni può far sì che i testi generati appaiano attuali o specifici, ma può influire sull'esattezza e rendere eventualmente necessaria una prioritizzazione delle fonti di dati interne ed esterne nel sottosistema RAG.
- Un aumento della trasparenza sulla protezione dei dati in relazione all'LLM utilizzato non può essere raggiunto solo tramite il RAG. La trasparenza in un sistema RAG è limitata alla possibilità di fare affermazioni sulla richiesta estesa al componente LLM utilizzato.
- Per quanto riguarda la riservatezza, nel contesto del sottosistema RAG, le esigenze di protezione dei dati relative alla banca dati devono essere affrontate con misure consolidate. A tal fine, in un sottosistema RAG possono essere applicate misure tecniche e organizzative comprovate, come la separazione del cliente/separazione funzionale e il concetto di diritti e ruoli.
- La fornitura di determinati documenti all'LLM può consentire interrogazioni mirate di dati personali, strettamente limitate allo scopo di elaborazione definito. A tal fine, tuttavia, ai dipendenti che utilizzano il sistema RAG per scopi diversi devono essere assegnati ruoli diversi.
Indipendentemente dai vantaggi di un sistema RAG, i problemi relativi alla cancellazione dei dati nel modello linguistico stesso persistono, secondo gli esperti di protezione dei dati.
Si può quindi affermare: alcune sfide legate alla protezione dei dati possono essere mitigate con l'uso del RAG, mentre altre permangono. Inoltre, anche per il sistema RAG devono essere adottate misure per tutelare la protezione dei dati, ad esempio misure per la protezione della riservatezza dei dati nelle fonti di dati aggiuntive. Infine, è sempre necessaria una base giuridica anche per l'utilizzo dei dati aggiuntivi, oltre alla base giuridica necessaria per l'LLM.
Scopri di più su protezione dei dati e compliance
- Digitaler Omnibus: Zwischen Vereinfachung und Aufweichung
Di: Oliver Schonschek - Agentic RAG zündet die nächste KI-Evolutionsstufe
- RAG und MCP als Gamechanger für Unternehmensprozesse
- Die Grundlagen der Observability von LLMs verstehen
Di: Kerry Doyle