I ricercatori automatizzano la progettazione delle strategie di ragionamento e riducono l’utilizzo dei token del 69,5%

VentureBeat AI 29 maggio 2026

Una soluzione per la scalabilità in fase di test

Negli anni recenti, la scalabilità in fase di test (Test-time scaling, TTS) è diventata una metodologia consolidata per migliorare le prestazioni dei modelli linguistici di grandi dimensioni (Large Language Models, LLM) nei loro utilizzi reali, permettendo loro cicli computazionali aggiuntivi durante la fase di inferenza. Tuttavia, le strategie TTS sono state finora create manualmente, basandosi su intuizione e sperimentazione umana per delineare le regole del ragionamento del modello.

Per superare questo limite, ricercatori di aziende come Meta e Google, insieme a università di tutto il mondo, hanno sviluppato AutoTTS, un framework che riesce automaticamente a scoprire le strategie ottimali di TTS. Con questo approccio automatizzato, le organizzazioni aziendali possono ottimizzare dinamicamente l’allocazione di risorse computazionali senza dover regolare personalmente gli algoritmi.

Applicando le strategie ottime individuate con AutoTTS, le imprese riducono i costi operativi e l’utilizzo complessivo di token durante il deployment di modelli avanzati di ragionamento. Nei test condotti, AutoTTS ha gestito in modo efficiente i budget di inferenza, riducendo l’uso di token fino al 69,5% mantenendo però lo stesso livello di precisione.

L’anello debole nella scalabilità in fase di test

La scalabilità in fase di test migliora i modelli linguistici concedendo loro un calcolo aggiuntivo per generare risposte. Tale calcolo permette al modello di esplorare diversi percorsi di logica o di verificare i passaggi intermedi prima di giungere a una decisione finale.

Tuttavia, la progettazione di queste strategie rappresenta una sfida per quanto riguarda l'allocazione ottimale di questa computazione extra. Finora, i ricercatori hanno ideato man mano queste strategie con ipotesi e prove errate, costruendo euristiche rigide. Gli ingegneri devono formulare regole e soglie per quando il modello debba esplorare nuove linee di logica, valutare un cammino esistente, scartare un’opzione non promettente o interrompere il ragionamento.

A causa di questo processo di sintonia manuale limitato all'intuizione umana, rimangono inesplorati un gran numero di approcci potenzialmente efficaci. Ciò spesso genera un compromesso subottimale tra accuratezza del modello e costi computazionali.

I limiti degli algoritmi manuelmente progettati

Gli algoritmi di test-time scaling attualmente utilizzati rientrano in uno spazio controllabile di gestione delle risorse denomina “larghezza” e “profondità”. Selte-consistenza (SC) campiona un numero fisso di traiettorie e vota il risultato per maggioranza. Adaptive-consistency (ASC) risparmia risorse interrompendo anticipatamente quando si raggiunge una soglia di confidenza. Parallel-probe adotta un approccio raffinato, eliminando i rami non promettenti per approfondire quelli restanti. Tutti questi metodi sono progettati a mano, e questo è il punto debole che AutoTTS intende risolvere.

Anche se alcuni metodi più avanzati usano struttu re complesse come alberi di ricerca o verificatori esterni, tutti condividono un aspetto in comune: sono elaborati in maniera manuale. Questo approccio limita lo spazio di ricerca delle strategie, lasciando inattivato un’enormità di potenziali modi di allocare le risorse.

Come funziona AutoTTS

AutoTTS ridefinisce completamente il modo in cui la scalabilità in fase di test viene ottimizzata. Al posto di affidarsi all’ingegnere per progettare la strategia, AutoTTS si basa sull’automatismo di un processo di ricerca algoritmico all’interno di un ambiente controllabile.

Questo framework ridefinisce i ruoli di uomo e di AI. L’ingegnere non deve più progettare regole specifiche per quando il modello debba esplorare, escludere o interrompere la logica; invece, deve costruire l’ambiente di scoperta. L’uomo definisce i limiti, come lo spazio di controllo degli stati e delle azioni, i criteri di ottimizzazione bilanciando precisione e costo, e i meccanismi di feedback.

Un modello LLM denominato “explorer”, ad esempio Claude Code, elabora la strategia. Questo modello agisce come un agente autonomo, che propone ciclicamente politiche TTS chiamate “controllers” e che le testa e perfeziona in base ai feedback ricevuti fino a trovare una politica ottimale diallocazione delle risorse.

Per rendere questa ricerca automatica ragionevole da un punto di vista computazionale, AutoTTS si basa su un ambiente “offline” di simulazione. Se l’AI explorer avesse bisogno di generare nuovi token ogni volta per testare nuove strategie, i costi sarebbero esorbitanti. Quindi, usa traiettorie preregistrate da un modello LLM base. Queste traiettorie comprendono “segnali di controllo”, risposte intermedie che permettono ai controller di valutare il progresso.

Nel ciclo di esplorazione, l’agente propone un controller ed esamina il suo comportamento rispetto al dataset offline precedentemente raccolto. Analizzando i tracciati di esecuzione, l’agente è in grado di diagnosticare modelli di fallimento specifici, ad esempio, individuando se un controller è troppo severo nello scartare i rami in una determinata situazione. Questo offre un vantaggio rispetto a semplicemente osservare un risultato finale. L’agente poi ripulisce e riscrive il proprio codice ciclicamente per migliorare il compromesso tra precisione e costo.

Le strategie AI-generated

Il fatto che l’explorer non abbia limiti basati sull'intuizione degli umani gli permette di scoprire strategie complesse e coordinate che nessun ingegnere sarebbe mai riuscito a codificare a mano. Uno dei controllers scoperti con successo è chiamato Confidence Momentum Controller, che utilizza diversi meccanismi non intuitivi per controllare le risorse computazionali:

Stopping basato su tendenza: Le strategie manuali spesso fermano il modello quando raggiunge una certa soglia di confidenza. Ma AutoTTS ha scoperto che la confidenza istantanea può essere fuorviante a causa di spostamenti temporanei. Invece, il controller monitora la media esponenziale mobile della confidenza e interrompe il calcolo solo quando la confidence complessiva è alta e la tendenza non presenta cali.

Controllo parallelo di larghezza e profondità: Algoritmi progettati manualmente trattano la “larghezza” (nuovi percorsi di ragionamento) e la “profondità” (approfondimento dei percorsi esistenti) come decisioni diverse. AutoTTS ha rilevato un feedback automatico tra questi due elementi. Se la confidenza dei rami correnti si blocca o regredisce, il controller attiva automaticamente nuovi

Leggi l'articolo originale →

← Torna alle news