Come il RAG nella IA influenza la protezione dei dati
Credito immagine: Block nomic Studio - stock.adobe.
Di Oliver Schonschek. Ultimo aggiornamento: 12 novembre 2025.
La "Generazione Aumentata dal Recupero" (RAG) è un processo di intelligenza artificiale che integra un Large Language Model (LLM) con una ricerca efficiente, ad esempio in una raccolta di documenti, in un database o in un knowledge graph, per generare risposte. Questa è la spiegazione fornita dal Fraunhofer-Institut für Experimentelles Software Engineering IESE. Il RAG offre numerosi vantaggi: può aumentare l'affidabilità dell'IA e permette di utilizzare gli LLM anche con i dati interni delle aziende utenti. Le possibili implicazioni del RAG, come l'affidabilità e la certezza giuridica dei contenuti generati dall'IA, non sono oggetto di studio solo per il mondo accademico, ma anche le autorità per la protezione dei dati stanno analizzando l'impatto del RAG nei sistemi di IA.
Il RAG e la protezione dei dati
I "sistemi RAG hanno un grande potenziale e offrono un nuovo e innovativo punto di partenza per lo sviluppo digitale made in Europe", commenta ad esempio l'incaricato statale per la protezione dei dati e la libertà di informazione del Baden-Württemberg. "Aziende e autorità dispongono di un'enorme quantità di dati personali e non personali, che finora sono stati spesso poco utilizzati. Con i sistemi RAG, possono rendersi più indipendenti dai grandi fornitori e sviluppare i loro sistemi in modo sovrano. Dal punto di vista della protezione dei dati, è assolutamente sensato gestire sistemi controllabili che proteggano al meglio i dati personali."
La Konferenz der unabhängigen Datenschutzbehörden von Bund und Ländern (DSK), la conferenza delle autorità indipendenti per la protezione dei dati della federazione e dei Länder, ha pubblicato una guida orientativa per aziende e autorità (PDF) che già utilizzano o intendono utilizzare sistemi di intelligenza artificiale con Generazione Aumentata dal Recupero (RAG). La guida fornisce indicazioni legali e tecniche su come sfruttare il potenziale di tali sistemi di IA e allo stesso tempo ridurre i rischi per gli interessati.
Meike Kamp, incaricata di Berlino per la protezione dei dati e la libertà di informazione e presidente della DSK nel 2025, ha motivato la nuova guida orientativa affermando: "I sistemi RAG possono supportare aziende e autorità nell'utilizzare i vantaggi dell'IA moderna e, allo stesso tempo, ridurre i rischi associati per i diritti e le libertà delle persone interessate. Tuttavia, è fondamentale che il loro utilizzo sia progettato fin dall'inizio in conformità con la protezione dei dati. I responsabili devono garantire trasparenza, limitazione delle finalità e il rispetto dei diritti degli interessati in ogni momento."
Vantaggi del RAG per la protezione dei dati
Tra i vantaggi del RAG nei sistemi di IA, le autorità di vigilanza evidenziano che i sistemi RAG possono essere sviluppati, gestiti e controllati autonomamente e, di conseguenza, implementare il concetto di Privacy-by-Design. Inoltre, possono consentire l'utilizzo di modelli più piccoli e anche gestiti localmente, il che permette, ad esempio, un funzionamento del sistema senza la trasmissione di dati personali a terzi come gli hyperscaler. In questo modo, il metodo RAG può dare un contributo importante alla sovranità digitale, secondo gli esperti di protezione dei dati.
Anche con il RAG esistono rischi per i dati
Tuttavia, anche nell'uso del RAG, non devono essere trascurati i rischi per la protezione dei dati personali. I sistemi RAG, ad esempio, non eliminano i problemi di protezione dei dati di un Large Language Model (LLM) addestrato illegalmente.
Inoltre, dal punto di vista delle autorità per la protezione dei dati, rimane una sfida garantire la trasparenza, la limitazione delle finalità e l'attuazione dei diritti degli interessati nell'intero sistema. Gli enti responsabili che intendono utilizzare sistemi RAG devono pertanto effettuare valutazioni sulla protezione dei dati per le singole elaborazioni caso per caso e mantenere sempre aggiornate le proprie misure tecnico-organizzative.
L'aggiunta di fonti e dati interni o di altro tipo alla base dati di un LLM non elimina quindi semplicemente i problemi di protezione dei dati che possono sussistere in un LLM.
A questo proposito, le autorità di vigilanza sottolineano, tra l'altro:
- Integrazione di fonti di dati esterne: Deve essere adeguatamente verificata e garantita la legittimità dell'utilizzo, l'idoneità e la correttezza dei dati e dei risultati ottenuti con essi.
- Impatto sull'accuratezza: L'integrazione di dati esterni può far apparire i testi generati attuali o specifici, ma può influire sull'accuratezza e potrebbe rendere necessaria una prioritizzazione delle fonti di dati interne ed esterne nel sottosistema RAG.
- Trasparenza del LLM: Un aumento della trasparenza in termini di protezione dei dati per quanto riguarda l'LLM utilizzato non può essere raggiunto solo attraverso il RAG. La trasparenza in un sistema RAG è limitata alla possibilità di fornire informazioni sulla query estesa inviata al componente LLM utilizzato.
- Confidenzialità nel sottosistema RAG: Per quanto riguarda la riservatezza, nel quadro del sottosistema RAG devono essere affrontati i requisiti di protezione dei dati per il database con misure consolidate. A tal fine, in un sottosistema RAG possono essere applicate misure tecniche e organizzative comprovate, come la separazione tra tenant/separazione funzionale e il concetto di diritti e ruoli.
- Accesso mirato ai dati: La messa a disposizione di determinati documenti per l'LLM può consentire interrogazioni mirate di dati personali, strettamente limitate alla finalità di trattamento definita. A tal fine, però, ai dipendenti che utilizzano il sistema RAG per diverse finalità devono essere assegnati ruoli diversi.
Inoltre, indipendentemente dai vantaggi di un sistema RAG, i problemi relativi alla cancellazione dei dati nel modello linguistico stesso persistono, secondo gli esperti di protezione dei dati.
Si può quindi affermare che: alcune sfide relative alla protezione dei dati possono essere mitigate con l'uso del RAG, mentre altre rimangono. Inoltre, anche per il sistema RAG devono essere adottate misure per garantire la protezione dei dati, ad esempio misure per la protezione della riservatezza dei dati nelle fonti di dati aggiuntive. Infine, per l'utilizzo dei dati aggiuntivi è sempre necessaria una base giuridica, in aggiunta alla base giuridica richiesta per l'LLM.