I log SQL forniscono al contesto AI gli agenti necessari per fermare le hallucinazioni sui join
DataHub ha realizzato una soluzione innovativa per migliorare il funzionamento degli agenti AI nel mondo del data management. La compagnia ha introdotto il concetto di Intelligenza Contestuale (Context Intelligence) che sfrutta gli storici SQL esistenti per fornire agli agenti AI informazioni accurate e contestuali.
Orientare gli agenti AI con contesto storico
Quando la squadra dati di Miro ha diretto gli agenti AI verso il proprio ambiente Snowflake, si è verificata una situazione problematica: più del 65% delle risposte fornite dagli agenti era errato. Il problema non risiedeva nel modello ma nell’assenza di contesto. Con oltre 10.000 tabelle e nessun layer semantico guida per la gestione, gli agenti non avevano alcun indizio su come mappare le query correttamente.
Il nuovo layer semantico di DataHub
Il layer semantico di DataHub si basa sull’estrazione di informazioni da log SQL esistenti per costruire un indice semantico. Questo strumento fornisce agli agenti AI un accesso diretto al contesto verificato. Gli agenti non generano più collegamenti (join) errati poiché hanno accesso a quelli già verificati in passato.
La storia di DataHub
DataHub nasce dalla mente dell'équipe che ha sviluppato il famoso progetto open-source DataHub su LinkedIn. Shirshanka Das, co-fondatore e CTO, ha guidato l'infrastruttura di dati per oltre 11 anni presso LinkedIn. Il progetto open-source attualmente vanta più di 15.000 contribuenti e 3.000 distribuzioni produttive in tutto il mondo.
“Per la prima volta, aziende possono convertire anni di analisi query in un database vivente e consultabile dove gli agenti smettono di fare errori nei join, poiché hanno accesso a quelli già verificati e validati dagli analisti”, ha affermato Shirshanka Das in un'intervista esclusiva con VentureBeat.
Perché la storia delle query è meglio del modello raw
DataHub iniziò come un progetto di gestione metadata per LinkedIn, nato per due obiettivi principali: rendere facile trovare e utilizzare dati in tutta l'azienda e assicurare che fossero utilizzati solo per le motivazioni appropriate.
Gli utilizzatori primari nel tempo hanno concentrato su tracciabilità dei dati, da sistemi operativi fino alle warehouse e strumenti di business intelligence. Regole di conformità, risoluzione operativa e formazione di nuovi ingegneri dipendono da questo grafico di tracciabilità. Postgres è attualmente la sorgente più collegata a livello globale, seguito da MySQL, Oracle e i principali data warehouse.
Inverso logico: SQL a semantica
Il nuovo layer di Context Intelligence inverte il processo logico: trasforma le query SQL in definizioni testuali semantiche, dette “semantic anchors”. Queste offrono un punto di accesso strutturato per gli agenti prima di generare SQL.
“Si può quasi pensare a questo processo come inverso di SQL da testo”, ha commentato Das.
Validazione umana integrata
Con Context Hub, esperti del settore possono revisionare i contesti proposta dall’IA, risolvere conflitti definitori ed esaminare l'impatto delle modifiche prima di pubblicarle.
Il caso di Miro
Miro, piattaforma di collaborazione digitale, ha utilizzato DataHub per la tracciabilità e l’analisi d'impatto quando ha iniziato a testare agenti su Snowflake. Ronald Angel, product manager a Miro, ha dichiarato che il problema principale era il volume estremo delle tabelle, con oltre 10.000 disponibili all’agente, causando una confusione eccessiva.
La soluzione adottata da Miro è stata organizzare i dati in prodotti ben strutturati limitando l’accesso diretto agli agenti. L’architettura produttiva si basa sugli input degli utenti via Claude Chat o Cowork attraverso un livello contestuale dove DataHub mappa il linguaggio naturale, prima di trasmetterlo a Snowflake per generare SQL.
Collaborazione con data vendors
Aziende come Pinecone, Oracle e Redis stanno sviluppando soluzioni simili con un focus sull’intelligenza contestuale. Microsoft, attraverso Fabric IQ, sta costruendo un layer semantico per il contesto, mentre DataHub ha enfatizzato un approccio neutro piattaforma, integrando l’infrastruttura esistente invece di sostituirla.
“Spesso le persone desiderano mantenersi neutre a livello piattaforma quando si tratta del proprio layer di contesto”, ha commentato Das.
Analisi di esperti
- Kevin Petrie (BARC): L’abilità di DataHub di integrare metadati strutturati e non strutturati è un punto di forza in un mercato concentrato su sole tabelle.
- Michael Ni (Constellation Research): La caratteristica distintiva di DataHub è il supporto della transizione dal catalogare passivamente a una semantica intellettuale in continuo aggiornamento.
- Kevin e Michael sull’ambito futuro: La gestione del contesto sarà la guida centrale per il prossimo conflito di piattaforme tecnologiche.
Ni ha chiarito l'importanza per le aziende di valutare chiaramente le proprie esigenze di contesto: “vettori di memoria non equivalgono a senso di business”, sottolineando come l’esecuzione e la governance siano aspetti diversi da considerare.