RAG è morto? L'ascesa del context engineering e dei livelli semantici per l'IA agentica
Introduzione
La Retrieval-Augmented Generation (RAG) potrebbe essere stata necessaria per la prima ondata di IA aziendale, ma si sta rapidamente evolvendo in qualcosa di molto più grande. Negli ultimi due anni, le organizzazioni hanno capito che il semplice recupero di frammenti di testo tramite la ricerca vettoriale non è sufficiente. Il contesto deve essere governato, spiegabile e adattivo allo scopo di un agente.
Questo articolo esplora come tale evoluzione stia prendendo forma e cosa significhi per i leader di dati e IA che costruiscono sistemi in grado di ragionare in modo responsabile.
Alla fine, avrete risposte a alcune domande chiave:
Come i knowledge graph migliorano la RAG?
Forniscono struttura e significato ai dati aziendali, collegando entità e relazioni tra documenti e database per rendere il recupero più accurato e spiegabile sia per gli esseri umani che per le macchine.
Come i livelli semantici aiutano gli LLM a recuperare risposte migliori?
I livelli semantici standardizzano le definizioni dei dati e le politiche di governance in modo che gli agenti AI possano comprendere, recuperare e ragionare su tutti i tipi di dati, nonché su strumenti AI, memorie e altri agenti.
Come sta evolvendo la RAG nell'era dell'IA agentica?
Il recupero sta diventando un passaggio in un ciclo di ragionamento più ampio (sempre più spesso chiamato "context engineering") in cui gli agenti scrivono, comprimono, isolano e selezionano dinamicamente il contesto tra dati e strumenti.
TL;DR
La Retrieval-Augmented Generation (RAG) è salita alla ribalta dopo il lancio di ChatGPT e la consapevolezza che esiste un limite alla finestra di contesto: non si può semplicemente copiare tutti i propri dati nell'interfaccia di chat. I team hanno utilizzato RAG e le sue varianti, come GraphRAG (RAG che utilizza un database a grafo), per portare contesto aggiuntivo nei prompt al momento della query. La popolarità di RAG ha presto esposto le sue debolezze: inserire informazioni errate, irrilevanti o semplicemente troppe nella finestra di contesto può effettivamente peggiorare anziché migliorare i risultati. Nuove tecniche come i re-ranker sono state sviluppate per superare queste limitazioni, ma RAG non è stata costruita per sopravvivere nel nuovo mondo agentico.
Man mano che l'IA passa da singoli prompt ad agenti autonomi, il recupero e le sue varianti sono solo uno strumento nella cassetta degli attrezzi di un agente, insieme alla scrittura, compressione e isolamento del contesto. Man mano che la complessità dei flussi di lavoro e delle informazioni necessarie per completarli cresce, il recupero continuerà a evolvere (sebbene possa essere chiamato context engineering, RAG 2.0 o recupero agentico). La prossima era del recupero (o context engineering) richiederà la gestione dei metadati attraverso le strutture dati (non solo relazionali), nonché strumenti, memorie e gli agenti stessi. Valuteremo il recupero non solo per l'accuratezza ma anche per rilevanza, fondatezza, provenienza, copertura e attualità. I knowledge graph saranno fondamentali per un recupero consapevole del contesto, consapevole delle politiche e semanticamente fondato.
L'ascesa della RAG
Che cos'è la RAG?
RAG, o Retrieval-Augmented Generation, è una tecnica per recuperare informazioni rilevanti per aumentare un prompt che viene inviato a un LLM al fine di migliorare la risposta del modello.
Poco dopo che ChatGPT è diventato popolare nel novembre 2022, gli utenti si sono resi conto che gli LLM non erano (si spera) stati addestrati sui loro dati. Per colmare questa lacuna, i team hanno iniziato a sviluppare modi per recuperare dati rilevanti al momento della query per aumentare il prompt – un approccio noto come retrieval-augmented generation (RAG). Il termine è emerso da un paper di Meta del 2020, ma la popolarità dei modelli GPT ha portato il termine e la pratica alla ribalta.
Strumenti come LangChain e LlamaIndex hanno aiutato gli sviluppatori a costruire queste pipeline di recupero.
- LangChain è stato lanciato all'incirca nello stesso periodo di ChatGPT come un modo per concatenare diversi componenti come modelli di prompt, LLM, agenti e memoria per applicazioni di IA generativa.
- LlamaIndex è stato lanciato nello stesso periodo come un modo per affrontare la finestra di contesto limitata in GPT3 e quindi abilitare RAG. Mentre gli sviluppatori sperimentavano, si sono resi conto che i database vettoriali forniscono un modo veloce e scalabile per alimentare la parte di recupero di RAG, e database vettoriali come Weaviate, Pinecone e Chroma sono diventati parti standard dell'architettura RAG.
Che cos'è GraphRAG?
GraphRAG è una variazione di RAG in cui il database sottostante utilizzato per il recupero è un knowledge graph o un database a grafo.
Una variazione di RAG è diventata particolarmente popolare: GraphRAG. L'idea qui è che i dati sottostanti per integrare i prompt degli LLM siano archiviati in un knowledge graph. Ciò consente al modello di ragionare su entità e relazioni piuttosto che su blocchi di testo piatti. All'inizio del 2023, i ricercatori hanno iniziato a pubblicare paper che esploravano come i knowledge graph e gli LLM potessero completarsi a vicenda. Alla fine del 2023, Juan Sequeda, Dean Allemang e Bryon Jacob di data.world hanno rilasciato un paper che dimostrava come i knowledge graph possano migliorare l'accuratezza e la spiegabilità degli LLM. Nel luglio 2024, Microsoft ha rilasciato in open source il suo framework GraphRAG, che ha reso il recupero basato su grafo accessibile a un pubblico di sviluppatori più ampio e ha solidificato GraphRAG come una categoria riconoscibile all'interno di RAG.
L'ascesa di GraphRAG ha riacceso l'interesse per i knowledge graph, in modo simile a quando Google lanciò il suo Knowledge Graph nel 2012. L'improvvisa domanda di contesto strutturato e di recupero spiegabile ha dato loro nuova rilevanza.
Dal 2023-2025, il mercato ha risposto rapidamente:
- 23 gennaio 2023 – Digital Science ha acquisito metaphacts, creatori della piattaforma metaphactory: “una piattaforma che supporta i clienti nell'accelerare l'adozione dei knowledge graph e nel guidare la democratizzazione della conoscenza.”
- 7 febbraio 2023 – Progress ha acquisito MarkLogic nel febbraio 2023. MarkLogic è un database NoSQL multimodale, con una particolare forza nella gestione dei dati RDF, il formato dati principale per la tecnologia a grafo.
- 18 luglio 2024 – Samsung ha acquisito Oxford Semantic Technologies, produttori del database a grafo RDFox, per alimentare il ragionamento on-device e le capacità di conoscenza personale.
- 23 ottobre 2024 – Ontotext e Semantic Web Company si sono fuse per formare Graphwise, posizionandosi esplicitamente attorno a GraphRAG. “L'annuncio è significativo per l'industria dei grafi, in quanto eleva Graphwise come l'organizzazione di IA per knowledge graph più completa e stabilisce un percorso chiaro verso la democratizzazione dell'evoluzione di Graph RAG come categoria.”
- 7 maggio 2025 – ServiceNow ha annunciato la sua acquisizione di data.world, integrando un catalogo dati basato su grafo e un livello semantico nella sua piattaforma di workflow aziendale.
Questi sono solo gli eventi correlati ai knowledge graph e alla relativa tecnologia semantica. Se estendiamo questo per includere la gestione dei metadati e/o i livelli semantici più in generale, allora ci sono più accordi, in particolare l'acquisizione per 8 miliardi di dollari del leader dei metadati Informatica da parte di Salesforce.
Queste mosse segnano un chiaro cambiamento: i knowledge graph non sono più solo strumenti di gestione dei metadati—sono diventati la spina dorsale semantica per l'IA e più vicini alle loro origini come sistemi esperti. GraphRAG ha reso nuovamente rilevanti i knowledge graph, assegnando loro un ruolo critico nel recupero, nel ragionamento e nella spiegabilità.
Nel mio lavoro quotidiano come product lead per una società di dati semantici e IA, lavoriamo per risolvere il divario tra i dati e il loro significato effettivo per alcune delle più grandi aziende del mondo. Rendere i loro dati pronti per l'IA è un mix di renderli interoperabili, scopribili e utilizzabili in modo che possano alimentare gli LLM con informazioni contestualmente rilevanti al fine di produrre risultati sicuri e accurati. Questo non è un compito da poco per grandi aziende altamente regolamentate e complesse che gestiscono quantità esponenziali di dati.
Il declino della RAG e l'ascesa del context engineering
RAG è morta? No, ma si è evoluta. La versione originale di RAG si basava su una singola ricerca vettoriale densa e prendeva i migliori risultati per alimentarli direttamente in un LLM. GraphRAG ha costruito su questo aggiungendo alcune analisi di grafo e filtri per entità e/o relazioni. Queste implementazioni hanno quasi immediatamente incontrato vincoli riguardanti rilevanza, scalabilità e rumore. Questi vincoli hanno spinto RAG in avanti verso nuove evoluzioni note con molti nomi:
- recupero agentico
- RAG 2.0
- e più recentemente, context engineering.
L'implementazione originale e ingenua è in gran parte morta, ma i suoi discendenti stanno prosperando e il termine stesso continua ad evolvere.