MeMo: il modello di memoria che permette agli LLM di aggiornarsi senza essere riallineati, con prestazioni aumentate del 26%
Man mano che gli LLM vengono utilizzati sempre più frequentemente per applicazioni aziendali sofisticate, rimane una sfida significativa permettere agli stessi di aggiornare la loro conoscenza dopo il training iniziale. Le soluzioni correnti, come il RAG o il riaddestramento completo sono spesso troppo costose, lentissime o limitate dalla dimensione del contesto.
Come funziona MeMo?
MeMo, creato da ricercatori accademici, introduce un framework dove la conoscenza è codificata in un piccolo modello di memoria dedicato, distinto da quello principale. Questo modello separato permette l'aggiornamento continuo delle informazioni senza retraining completo.
La modularità di MeMo lo rende compatibile sia con modelli open-source che con modelli chiusi, evitando la complessità del RAG o del retraining totale.
Esperimenti mostrano che MeMo gestisce efficacemente query complesse anche quando i pipeline di retrieval sono rumorosi. Inoltre, il framework evita il problema della “dimenticanza catastrofica” associato al micro-aggiornamento diretto.
Un aspetto chiave di MeMo è la sua modularità e la capacità di costituire un percorso di aggiornamento economico ed efficace.
Il problema della memoria negli LLM
I modelli linguistici grandi mantengono informazioni statiche dopo l’addestramento, a meno che non vengano eseguiti aggiornamenti, che spesso richiedono un uso significativo di risorse computazionali.
- Metodi non parametrici: Tecnologie come RAG e apprendimento contestuale recuperano informazioni da database esterni, ma vengono vincolati dalla lunghezza del contesto.
- Metodi parametrici: Questi tentano di incorporare nuove informazioni direttamente nei pesi dei modelli, ma richiedono risorse elevate e causano dimenticanza catastrofica.
- Metodi di memoria latente: Questi comprimono informazioni in rappresentazioni compatte aggiunte al contesto modello durante l'inferenza, ma sono legati all'architettura originale.
Come funziona effettivamente MeMo
MeMo presenta una architettura modulare con due componenti principali. Il modello di MEMORIA è un piccolo modello addestrato per codificare la nuova conoscenza nei parametri. Il modello ESECUTIVO è un LLM congelato utilizzato come motore di ragionamento.
Quando il utente fa una domanda, il modello ESECUTIVO tratta il modello di MEMORIA come un oracolo esterno, emettendo query mirate per ottenere fatti specifici e sintetizzarli in una risposta.
Un aspetto chiave del design è il concetto di “riflessioni”, ovvero coppie QA create per catturare ogni possibile punto di vista di un corpo conoscitivo. Il modello di GENERAZIONE estra le informazioni e il modello di MEMORIA viene fine-tuned su questi set per rispondere alle query.
Un protocollo a tre fasi permette l’interazione tra i due modelli durante l’inferenza:
- Il modello ESECUTIVO scompone la query in domande subordinate e il modello di MEMORIA fornisce le risposte di base.
- Con le risposte iniziali, il modello ESECUTIVO esegue ulteriori query per raffinare l’entità bersaglio.
- Infine, il modello ESECUTIVO interroga il modello di MEMORIA per informazioni di supporto sull’entità bersaglio e le sintetizza in una risposta coerente.
Gestione degli aggiornamenti continui
Gestire un modello LLM richiede aggiornamenti continui man mano che le nuove informazioni vengono pubblicate o i policy dell'azienda cambiano. In generale, aggiornare un modello richiede un retraining completo.
Efficienza attraverso il model merging
MeMo si basa su una tecnica chiamata model merging, dove invece di retarainare il modello su tutti i dati precedenti e nuovi, vengono rianalizzati solo gli aggiornamenti recenti. Si genera un vettore di task che rappresenta i cambiamenti nei parametri derivati da nuovi dati, che vengono matematicamente aggiornati.
Questo approccio riduce gli ore di calcolo necessarie per mantenere a giorno il sistema ed evita la dimenticanza catastrofica. Tuttavia, comporta un calo di precisione di circa il 11% al 19% rispetto ai full-retrain.
MeMo in azione
Per testare l’efficacia, il team di ricerca ha confrontato MeMo con diversi benchmark che richiedono ragionamenti complessi multiplo. Per il modello di GENERAZIONE, hanno utilizzato Qwen2.5-32B per estrarre le riflessioni, e per il modello di MEMORIA Qwen2.5-14B. Sono stati anche testati modelli più piccoli come Gemma3-1B.
I risultati hanno mostrato un'enorme differenza con sistemi di retrieval esistenti. Su NarrativeQA, MeMo ha conseguito un tasso di accuratezza del 53.58%, mentre HippoRAG2 ha raggiunto solo il 23.21%.
Applicazioni aziendali
Gli ambienti aziendali spesso necessitano di sintetizzare informazioni complesse, ad esempio, attraverso diverse normative o di consolidare dati in codifiche estese e documenti esterni. I sistemi RAG tradizionali falliscono perché i loro limiti di contesto non permettono di gestire questi compiti.
MeMo offre una soluzione efficiente per migliorare la capacità dei LLM di gestire compiti aziendali complessi. La sua architettura e l’utilizzo dell’apprendimento mirato lo rendono una soluzione potenzialmente rivoluzionaria per il settore aziendale.