Fine-Tuning Dimentica. RAG Perde Contesto. Hypernetworks Costruiscono il Modello che il Tuo Agente Deve A Su Richiesta
Quando un agente AI dimostra brillantemente, entra in produzione ma si blocca, capita spesso che debba essere supervisionato costantemente. Nonostante possa svolgere un lavoro autonomamente, spesso richiede una mano umana di tanto in tanto, rendendo vano quasi ogni promessa di efficienza. Questo è uno dei motivi per cui tante prove d’agency mai passano al sistema operativo live.
Il problema non sta nelle capacità
Quel problema di autonomia non è nemmeno una questione di capacità; è una questione del posto in cui le conoscenze vengono immagazzinate rispetto al modello. L’azienda ha due modi per farlo: l’uno è l’addestramento personalizzato, che incorpora le conoscenze direttamente nei pesi del modello e l’altro è il learning contestuale, che fornisce informazioni pertinenti all’input in tempo reale.
Ci sono due grandi problemi con entrambi. Il primo è l’oblio catastrofico, un effetto già identificato dagli anni ’80, in cui insegnare qualcosa di nuovo al modello fa deperire le informazioni vecchie. Il workaround più comune è isolare ogni compito in propri modelli sottoposti a fine-tuning, aumentando la proliferazione di modelli e il relativo carico di gestione.
Tuttavia, non è l’unica strada: il learning contestuale mostra il rischio di degrado del contesto, dove la mancanza di informazioni rilevanti sembra una risposta confidente ma sbagliata. Entrambi i metodi producono risultati che sembrano coerenti, ma senza la supervisione umana, non si può distinguere cosa sia corretto o no.
Un modello che nasce solo su richiesta
Una terza via si sta affermando: piuttosto che reincontrare un modello o sovraeccitare il prompt, una generatore crea un piccolo modello specifico del compito direttamente da politiche aziendali all’infereza. Questo modello generator è una hypernetwork.
L’idea non è recente, e fu citata per la prima volta nel 2016. Applicarla per generare modelli da testi e documenti è però una novità che sta prendendo piede. Sakana AI, ad esempio, ha proposto un lavoro al convegno ICML 2025 chiamato Text-to-LoRA che genera adattatori da una descrizione semplice in un solo passo. Altro esempio è SHINE, un sistema 2026 che paragona l'adattamento di hypernetwork una prospettiva promettente.
Il vantaggio di generare adattatori piuttosto che crearli separatamente, poi, è che riduce un insieme vasto di modelli per compiti specifici a un'unica rete, pronta a produrli su richiesta, compresi nuovi compiti mai visti prima.
Che vantaggio dà il modello su richiesta?
Il fascino del modello generato da hypernetworks sta principalmente nel chiuso loop del problema prima menzionato: l’adattatore per cada compito che i team aziendali spesso costruiscono manualmente per evitare l'oblio catastrofico è esattamente ciò che una hypernetwork produce automaticamente.
I modelli stretti e regolari di compiti ripetitivi in workflow automatizzati possono essere eseguiti da modelli semplici e, a basso costo, come spesso sottolinea un gruppo di ricerca di Nvidia del 2025, essi sono 10 a 30 volte più economici rispetto a modelli generalisti. Nace.AI, un’azienda di Palo Alto finanziata con 21,5 milioni di dollari nel maggio 2026, è uno dei più chiari esempi commerciali, usando una tecnologia chiamata MetaModel.
I modelli generati in tempo reale da queste tecnologie permettono agli agenti di occuparsi della maggior parte di un flusso di lavoro, affidandosi ad esperti solo per validare il risultato. Ecco perché parlano di una divisione 90/10: il 90% del lavoro viene gestito automaticamente.
Confrontare le tre strade
- Fine-tuning: dove la conoscenza aziendale vive nei pesi interni del modello;
- In-context / RAG: dove viene rifornita in tempo reale nel prompt;
- Modello generato da hypernetwork: dove la conoscenza entra nei pesi generati su richiesta.
Più un modello è piccolo e preciso, più si riduce il rischio di errori in un dominio ben definito.
Fatture di aggiornamento
- Fine-tuning: il costo è alto poiché richiede riconsiderazione;
- In-context / RAG: il costo è basso perché si modifica la fonte di dati;
- Hypernetwork: il costo è basso dato che i modelli vengono rigenerati da politiche correnti.
Il costo e la latenza per richiesta sono rispettivamente bassi, alti (aumentano con la quantità di contesto), e bassi.
Modi principali di fallire
- Fine-tuning: rischi di oblio e proliferazione di modelli;
- In-context / RAG: rischi di perdita di contesto e mancate corrispondenze di dati;
- Hypernetwork: dipende dalla qualità dei generatori e della corretta calibrazione.
Per chi è responsabile del miglioramento, chiunque addestri il modello, chiunque conservi il database, o chiunque abbia il giusto feedback e il controllo del generator.
Persuadere la libertà dell’agente
I modelli generati hanno un effetto importante sul livello di autonomia dell’agente. Quando un modello è preciso, piccolo e aggiornato, ha meno errori su cui l’agente può inciampare. Meno errori significano minori richieste ad un essere umano di fare controlli – l’elemento effettivo di ogni dichiarazione di alta autonomia.
Due decisioni di design definiscono se questa autonomia è affidabile o solo veloce: fondamentalmente, la capacità di legare ogni output alla sua fonte in modo che un utente possa verificare e non rivedere.
- Grounding: etichettare ciascuna richiesta con le fonti e citare.
- Feedback: chi si aggiorna e dove?
Una seconda variabile chiave è chi ottiene i benefici del miglioramento e dove si trova il modello aggiornato. Arrangiamenti variano, ma in molti casi, come per Nace, la risposa dipende da chi convalida i dati (esperti esterni certificati o personale interno, come previsto) e dove i modelli vengono tenuti (interni o esterni).
Che limiti ha questa strada?
La strada è ancora in una fase iniziale, e ha dei rischi: la calibrazione è fondamentale. I recenti test mostrano che i modelli generati da hypernetwork non necessariamente migliorano subito la calibrazione.
La qualità dei modelli generati dipenderà molto da come vengono curati i documenti e le politiche us