Le sfide dell'IA e il ROI: perché l'ingegneria del contesto è fondamentale per gli agenti

thestack.technology 8 aprile 2026

La fase di luna di miele dell'intelligenza artificiale generativa sta volgendo al termine. Dopo due anni di frenetica prototipazione e pressioni a livello di consiglio di amministrazione per "fare qualcosa con l'IA" che producesse un impatto significativo, molti leader si trovano di fronte a un muro di confusione riguardo agli approcci ottimali di implementazione per costruire applicazioni IA veramente significative. Chiunque, a questo punto, è in grado – e in gran parte lo ha già fatto – di lanciare una variante di chatbot, come sottolinea con sarcasmo Ken Exner, Chief Product Officer di Elastic.

“Ogni funzione HR, ogni funzione di vendita ha ormai un chatbot, il proprio ‘Clippy’”, afferma Exner, riferendosi all'assistente digitale di Microsoft degli anni '90. Con i modelli e gli strumenti che li circondano in rapido miglioramento, la pressione ora è quella di iniziare a implementare architetture agentive che siano basate su un contesto aziendale iperspecifico. Ciò significa un lavoro continuo per affinare i flussi di lavoro basati sulla Generazione Aumentata dal Recupero (RAG), ma anche un ripensamento più ampio di ciò che l'industria chiama “ingegneria del contesto” – un insieme dinamico di strumenti e pratiche che assicurano che i modelli ricevano le informazioni giuste nel formato giusto per svolgere il miglior lavoro possibile.

Exner e Michael Ni di Constellation Research si sono seduti con The Stack per discutere il motivo per cui il 2026 sarà l'anno dell'ingegneria del contesto.

Il collo di bottiglia del contesto

Exner sostiene che i team tecnologici delle organizzazioni si fissano spesso su esoterismi architetturali, o minuzie relative alle scelte dei modelli. “Niente di tutto ciò conta se non si hanno i dati giusti per dare contesto a un agente”, afferma, aggiungendo che disporre delle fonti di dati corrette è più importante che mai. Man mano che le aziende si muovono verso architetture agentive, dove gli agenti IA non si limitano a parlare ma agiscono, la posta in gioco per l'accuratezza sale alle stelle. Un chatbot che fornisce una risposta sbagliata è un fastidio; un agente automatizzato che intraprende azioni potenzialmente errate e "distruttive" rappresenta una responsabilità aziendale assoluta.

Questa sfida ha dato origine alla disciplina dell'ingegneria del contesto. Mentre la prompt engineering riguardava il modo in cui si parla al modello, l'ingegneria del contesto è incentrata sull'ottimizzazione di come si recuperano i dati più rilevanti per un agente. “Ottenere i dati giusti per fondare le risposte o definire le azioni di un agente è fondamentale”, afferma Exner, sottolineando che la soluzione non è semplicemente fornire più dati all'IA. Nonostante la tendenza verso finestre di contesto più ampie, che rappresentano la quantità di informazioni che un modello può elaborare contemporaneamente, gettare l'intera libreria a un grande modello linguistico (LLM) porta a una deriva del contesto, o rumore.

Il trucco, dice Exner, è l'esatto contrario. Per la latenza, l'accuratezza e la privacy, “si desidera dare a un LLM la minor quantità di informazioni più rilevanti”. Questo principio guida un approccio più mirato e efficiente alla gestione dei dati, evitando sovraccarichi che possono compromettere le prestazioni e l'affidabilità.

La nuova architettura: dal RAG al MCP?

La frontiera tecnica di questo cambiamento implica un passaggio dal semplice recupero-aumento della generazione (RAG) all'uso del protocollo di contesto del modello (MCP), che fornisce agli agenti IA l'accesso a API specifiche e alla logica di business. Questo crea una nuova sfida: la selezione degli strumenti. Quando un agente ha accesso a centinaia di strumenti e sistemi di dati diversi, come fa a sapere quale scegliere? Sia Exner che Ni concordano sul fatto che questo è un ritorno alla ricerca, una tecnologia fondamentale. Questa è anche una sfida aziendale fondamentale, con la necessità di abbattere i silos di dati, standardizzare le pratiche di gestione dei dati ed effettuare una pulizia approfondita.

Perché la ricerca?

Devi essere in grado di analizzare il significato, estrarre l'intento e navigare ontologie complesse per trovare il singolo dato che conta in un millisecondo, afferma Exner. L'efficienza della ricerca è cruciale in un ecosistema di agenti IA che devono prendere decisioni rapide e accurate basate su informazioni frammentate e sparse in diverse fonti. Un sistema di ricerca robusto e intelligente è il cuore pulsante dell'ingegneria del contesto efficace, consentendo agli agenti di operare con la precisione richiesta per compiti critici.

I silos di dati hanno un effetto a catena

Quando i dati sono intrappolati in silos, spesso le informazioni corrette non raggiungono l'LLM, causando risultati imprecisi o incompleti. Gli LLM necessitano delle informazioni giuste per completare il compito, specialmente il contesto che circonda la query. Ad esempio, se si chiede a un LLM di calcolare il ricavo di fine anno per il proprio reparto vendite, l'LLM non può restituire una risposta accurata senza informazioni specifiche della propria azienda, come la data di fine anno fiscale e le fonti di ricavo definite. Queste informazioni contestuali sono vitali per evitare errori e garantire la pertinenza dei risultati.

Inoltre, l'LLM deve anche conoscere il pubblico della query. Per fare un esempio incentrato sulle vendite, un Direttore Marketing (CMO) potrebbe voler comprendere i ricavi per canale di marketing, mentre un Direttore Finanziario (CFO) potrebbe desiderare una ripartizione dei ricavi per unità di business. La capacità di adattare la risposta all'audience e all'intento specifico della domanda è un aspetto sofisticato dell'ingegneria del contesto che richiede una comprensione profonda della struttura e della semantica dei dati aziendali.

La sfida non dovrebbe essere semplificata eccessivamente, affermano Ni ed Exner. Gli ingegneri devono eseguire una serie di tecniche di recupero per far arrivare le informazioni a un modello nel modo più efficiente possibile. L'analisi e l'estrazione del significato dai dati coinvolgono una serie di componenti e strategie complesse, tra cui:

Connettori: per accedere a diverse fonti di dati.
Strategie di chunking: per dividere i dati in blocchi gestibili.
Modelli di embedding: per rappresentare i dati in vettori significativi.
Vettorializzazione: il processo di trasformazione dei dati in vettori.
Servizi di inferenza: per l'elaborazione e l'analisi dei dati vettorializzati.

Il CPO di Elastic afferma che l'azienda ha lavorato duramente per ottimizzare i risultati per i clienti e rimuovere parte del carico di lavoro più pesante. Nella sua esperienza, “troviamo che i risultati migliori e più rilevanti si ottengono quando le organizzazioni combinano le tecniche, come la combinazione della traversata di grafi insieme alla ricerca geospaziale per unirsi alla ricerca vettoriale”, dice Exner, fornendo un esempio. Questo approccio ibrido sfrutta i punti di forza di diverse metodologie per superare le limitazioni di ciascuna.

Combinando tecniche, come il reranking (riordinamento dei documenti recuperati in base alla loro rilevanza per la query) e altre, si possono ottenere risultati molto migliori. Questo può, ammette Exner, “diventare complicato velocemente” come flusso di lavoro. Tuttavia, la complessità è un prezzo che vale la pena pagare per l'accuratezza e la rilevanza, che sono fondamentali per il successo delle applicazioni IA agentive.

Ni concorda sul fatto che molte delle organizzazioni con cui parla sono rimaste scottate dalle loro prime esperienze e stanno ripensando il loro approccio per ottenere un ritorno sull'investimento (ROI) dalle applicazioni IA generative. “Tutti i primi adottanti che stavano creando quei chatbot dovevano assemblare i propri encoder, effettuare il proprio reranking”, dice Ni. “Ora stiamo tornando a tutte le lezioni che le persone hanno dovuto imparare in termini di come si offre effettivamente la rilevanza, come si sintonizzano queste cose e tutti gli strumenti dietro a ciò? Penso che questo sia un momento davvero interessante”.

Hanno inserito così tante delle politiche negli agenti, o negli stessi LLM, ma ora stanno esaminando come scalare questo e farlo funzionare, aggiunge Ni. Questo passaggio dalla fase di sperimentazione alla scalabilità e all'operatività a livello aziendale è il cuore delle sfide attuali e future dell'IA.

Il supporto di Elastic per l'ingegneria del contesto

Exner afferma che il suo team ed Elastic hanno preziose lezioni da condividere – e strumenti per aiutare coloro che cercano di ottenere più valore dalle loro applicazioni IA. “Il nostro team fornisce un'esperienza facile da usare con i primitivi, modelli di ranking, inferenza e modelli di encoding migliori della categoria”, spiega Exner. Questi componenti fondamentali sono essenziali per costruire sistemi di IA che possono operare con alta precisione e scalabilità.

“Elastic offre anche un'esperienza end-to-end, rendendo semplice e facile iniziare, pur consentendo di scendere e configurare a livello primitivo”, aggiunge – il che significa che è pronto a supportare sia a livello aziendale che team di ingegneri esperti. Questa flessibilità è cruciale per adattarsi alle diverse esigenze e livelli di competenza degli utenti, garantendo che sia i principianti che gli esperti possano sfruttare appieno il potenziale dell'ingegneria del contesto.

Facendo un passo indietro per osservare quanto velocemente si sta evolvendo questo ambiente, Exner riassume: “Nel 2025, tutti parlavano di agenti e architetture agentive; il 2026? Posso garantirti che sarà l'anno dell'ingegneria del contesto”. Questa previsione sottolinea l'importanza crescente di questa disciplina come fattore critico di successo per l'adozione su larga scala dell'IA. Imparare a mantenere i tuoi agenti nel contesto con Elasticsearch è un passo fondamentale per qualsiasi organizzazione che desideri capitalizzare appieno il potenziale dell'intelligenza artificiale.

Articolo realizzato in collaborazione con Elastic.

Leggi l'articolo originale →

← Torna alle news