RecursiveMAS accelera multi-agent inference del 2,4x e riduce il consumo di token del 75%

VentureBeat AI 16 maggio 2026

Uno degli sfide principali dei sistemi multi-agenti AI è che comunicano generando e condividendo sequenze di testo. Questo introduce latenza, aumenta i costi dei token e rende difficile addestrare l'intero sistema come un'unità unitaria.

Per superare questa sfida, ricercatori dell'Università di Illinois Urbana-Champaign e della Stanford University hanno sviluppato RecursiveMAS, un framework che permette agli agenti di collaborare e trasmettere informazioni attraverso lo spazio embedding invece che tramite testo. Questo cambiamento produce guadagni sia in efficienza che in prestazioni.

Gli esperimenti mostrano che RecursiveMAS ottiene miglioramenti di accuratezza in domini complessi come la generazione di codice, il ragionamento medico e le ricerche, aumenta la velocità di inferenza e riduce drasticamente l'utilizzo dei token.

RecursiveMAS è significativamente più economico da addestrare rispetto ai metodi standard di fine tuning completo o di addestramento LoRA, rendendone un modello scalabile e di basso costo per sistemi personalizzati multi-agenti.

I problemi nell'evoluzione dei sistemi multi-agenti

I sistemi multi-agenti possono aiutare a gestire compiti complessi che i sistemi a singolo agente faticano a trattare. Quando si ridimensionano questi sistemi multi-agenti per applicazioni reali, un grosso problema è rendere il sistema in grado di evolversi, migliorarsi e adattarsi a diversi scenari nel tempo.

L'adattamento basato su prompt migliora le interazioni fra agenti, raffinandole iterativamente il contesto condiviso fornito agli agenti. Aggiornando i prompt, il sistema agisce da regista, facendo sì che gli agenti generino risposte allineate all'obiettivo globale. Lo svantaggio fondamentale è che le funzionalità dei modelli sottostanti a ogni agente restano statiche.

Un approccio più sofisticato prevede l'addestramento degli agenti aggiornando i pesi dei modelli sottostanti. Tuttavia, è difficile addestrare l’intero sistema poiché aggiornare tutti i parametri attraverso diversi modelli è computazionalmente impegnativo.

Anche se un team di ingegneria si impegna nell'addestramento del modello, il metodo standard di comunicazione a base testuale tra agente e agente crea grossi colli di bottiglia. Poiché gli agenti si affidano alla generazione sequenziale del testo, si genera latenza perché ogni modello deve aspettare che il precedente finisca prima di iniziare il proprio elaboramento.

Forzare i modelli a dettagliare passo dopo passo le loro deduzioni interne, un token alla volta, serve solo a rendere inefficiente il processo. Questo aumento del consumo di token genera costi computazionali elevati e rende il processo di apprendimento iterativo su tutto il sistema estremamente lento da scalare.

Come funziona RecursiveMAS

Invece di cercare di migliorare ogni agente come componente isolata, RecursiveMAS è progettato per far co-evolvere l’intero sistema multi-agente come un’unica unità integrata.

Il framework è ispirato ai modelli linguistici ricorsivi (RLMs). In un modello linguistico standard, i dati scorrono linearmente attraverso un insieme distintivo di strati. Invece, in un modello linguistico ricorsivo si utilizza un insieme condiviso di strati che elabora i dati e li reinserisce nel modello. Grazie a questa struttura a ciclo, il modello può approfondire il suo ragionamento senza aggiungere ulteriori parametri.

RecursiveMAS estende questo principio di scalabilità da un modello singolo ad un'architettura multi-agente capace di comportarsi come un sistema ricorsivo unificato. In questa configurazione, ogni agente funziona come uno strato in un modello linguistico ricorsivo. Al posto di generare testo, gli agenti passano iterativamente le loro rappresentazioni latenti continue al prossimo agente in sequenza, creando uno stream di informazioni cicliche che scorrono nell’intero sistema.

Questo passaggio latente continua attraverso tutti gli agenti. Quando l'ultimo agente finisce la sua elaborazione, le sue uscite latenti vengono nuovamente inviate al primo agente, avviando un nuovo ciclo ricorsivo.

Questa struttura consente all'intero sistema multi-agente di interagire, riflettere e raffinare il proprio ragionamento collettivo in più cicli attraverso lo spazio latente, con solo l’ultimo agente che produce un output testuale nel ciclo finale. È come se gli agenti si comunicassero telepaticamente come un'unità unificata e l'ultimo agente fornisca risposta come testo.

L'architettura della collaborazione latente

Per rendere possibile la collaborazione tramite spazio latente continuo, gli autori introducono un componente architettonico dedicato chiamato RecursiveLink. Questo modulo è leggero e a due strati, progettato per trasmettere e migliorare lo stato latente dei modelli anziché costringerli a decodificare testo.

Gli output delle ultime strati di un modello linguistico contengono una rappresentazione testuale ricca e semantica del processamento di deduzione. Il RecursiveLink è progettato per conservare e trasmettere questa informazione ad alta dimensione da uno spazio embedding all'altro.

Per evitare il costo di aggiornare tutti i parametri attraverso diversi modelli di linguaggio di grandi dimensioni, il framework mantiene i parametri dei modelli congelati. Invece di this, il sistema ottimizza addestrando solo i parametri dei moduli RecursiveLink.

Il processo di apprendimento ricorsivo mostra una struttura ben definita (fonte: arXiv). Per gestire sia il ragionamento interno che la comunicazione esterna, il sistema utilizza due varianti del modulo. Il RecursiveLink interno opera dentro un agente durante la fase di ragionamento. Esso prende gli embeddings appena generati dal modello e li mappa direttamente al proprio input dello stesso spazio embedding. Questo permette agli agenti di generare un flusso continuo di pensieri latenti senza dover produrre token testuali.

Il RecursiveLink interno permette agli agenti di generare un flusso continuo di ragionamenti latenti.
IlRecursiveLink esterno funge da ponte tra agenti diversi.

Poiché agenti in un sistema reale possono utilizzare architetture o dimensioni modello differenti, i loro spazi embedding interni possono avere dimensioni completamente distinte. Il RecursiveLink esterno include uno strato aggiuntivo progettato per allineare gli embedding da una dimensione nascosta ad un'altra.

Durante l'addestramento, prima vengono addestrati separatamente i moduli interni per scaldaare l’abilità di ogni agente di “p

Leggi l'articolo originale →

← Torna alle news