Laboratorio Thinking Machines di Mira Murati Presenta Modelli di Interazione: Architettura Multimodale per Collaborare in Tempo Reale tra Umani e IA

MarkTechPost 14 maggio 2026

Il Laboratorio Thinking Machines presenta una soluzione innovativa: i modelli di interazione, una classe di sistemi avanzata progettata per migliorare la collaborazione tra esseri umani e sistemi di intelligenza artificiale. A differenza dei tradizionali modelli interattivi basati su turni, i modelli di interazione offrono un'interattività integrata nel sistema stesso.

La Problematica dei Modelli Basati su Turni

Gli utenti che hanno realizzato applicazioni con modelli linguistici o API vocali conoscono le limitazioni dell’interazione a turni. Il modello non ha consapevolezza di ciò che accade durante la digitazione o il parlato dell'utente. Non può individuare una pausa nel mezzo di una frase, osservare una fotocamera o reagire a stimoli visivi in tempo reale. Il modello, durante la generazione di una risposta, è cieco: la percezione si blocca finché non completa l’elaborazione o qualcosa lo interrompe.

Questo crea un canale stretto per la collaborazione uomo-intelligenza artificiale. Per migliorare la risposta, molte applicazioni temporali utilizzano un sistema di controllo esterno composto da componenti diversi. Un esempio comune è il rilevamento dell'attività vocale (VAD), che riconosce quando l'utente ha terminato di parlare in modo che il modello inizi a rispondere. Tuttavia, un tale schema non incorpora funzionalità interattive come reazioni visive proattive, parlare mentre si ascolta o rispondere a stimoli non espliciti. Il laboratorio Thinking Machines sostiene che per raggiungere livelli superiori di interattività, è necessario integrarla nel modello stesso.

L'Architettura: Design Multistream e Micro-Turn

Il sistema utilizza due componenti paralleli: un modello di interazione sempre attivo e un modello in background che si occupa di compiti più complessi in contemporanea. Il modello di interazione riceve continuamente input audio, video e testuale e genera output in tempo reale. Quando richiesto, delega compiti come l’uso di strumenti, ricerche online o pianificazione a lungo termine al modello in background, inviando un pacchetto ricco di contesto con la conversazione completa.

I risultati prodotti dal modello in background vengono restituiti al modello di interazione, che integra le informazioni nella conversazione in una maniera naturale e sincronizzata con il comportamento dell'utente. L'architettura si basa su micro-turni sincronizzati temporalmente, con cicli di elaborazione di 200 millisecondi per input e output. Questa interlacciata elaborazione consente reazioni immediate a stimoli visivi, interazioni simultanee di audio e video e la capacità di chiamare strumenti e cercare informazioni online durante la conversazione.

Fusione senza Encoder

Un’altra caratteristica chiave dell’architettura è la "encoder-free early fusion". Invece di utilizzare grandi encoder preaddestrati specifici per ogni tipo di input, il sistema utilizza un'elaborazione leggera e diretta dei dati. I segnali audio vengono elaborati come dMel, i frame video dividono in patch 40×40 codificati con un hMLP e per l'audio di output si utilizza un flow head per il decoding.

I modelli vengono addestrati da zero e mantengono tutta la struttura senza encoder separati, riducendo al minimo il consumo di risorse. Su lato inferenza, l’approccio basato su 200ms presenta sfide nell'ottimizzazione. Il laboratorio ha sviluppato "sessioni streaming", dove l'utente invia ciascun chunk di 200ms come richiesta separata, mentre il server assembla i dati in una sequenza persistente in memoria GPU.

Per rendere il tutto efficiente, gli sviluppatori utilizzano una strategia "gather+gemv" per i nuclei MoE invece della grouped gemm standard. Questo permette di gestire forme di dati sensibili al tempo, necessarie per interazioni a due vie. Hanno anche aperto una versione di questo miglioramento all'inferenza con il framework open source SGLang.

Dai Benchmark ai Risultati

Il modello principale, denominato TML-Interaction-Small, è un modello basato sul Mixture-of-Experts (MoE) con 276 miliardi di parametri, di cui 12 miliardi attivi in ogni istante.

Nelle tabelle di confronto, i modelli vengono distinguibili in "Instant" (senza ragionamento esteso) e "Thinking" (con ragionamento esteso). TML-Interaction-Small si presenta come un modello "Instant" e mostra risultati eccellenti in diversi benchmark. Nella tabella Audio MultiChallenge APR, il modello ottenne il punteggio più alto con il 43,4%. I modelli "Thinking" come GPT-realtime-2.0 (xhigh) raggiungono il 48,5%, ma richiedono un ragionamento esteso.

Test Interni Innovativi

I ricercatori hanno introdotto nuovi test che esprimono capacità interattive uniche. Il test TimeSpeak valuta la capacità del modello di iniziare a parlare in momenti specifici. TML ottiene una precisione di 64,7%, mentre GPT-realtime-2.0 raggiunge solo il 4,3%. Il test CueSpeak misura la reattività a stimoli verbali, con TML a 81,7% rispetto a 2,9% per GPT. RepCount-A verifica il conteggio visivo azioni ripetitive in streaming: il risultato è 35,4% per TML contro 1,3%, e ProactiveVideoQA misura la capacità di rispondere esattamente al momento in cui l’informazione diventa visibile. Ancora, TML raggiunge il 33,5%. Per Charades, il modello è in grado di rispondere esattamente quando un’azione inizia o finisce in un video, raggiungendo 32,4 mIoU, rispetto a 0 per GPT.

Conclusione

I modelli di interazione rappresentano un passo avanti nella collaborazione tra uomo e intelligenza artificiale, integrando interattività fluida e istantanea nel processo. Benché siano ancora in fase di ricerca, il Laboratorio Thinking Machines ha dimostrato che questa architettura ha il potenziale per superare drasticamente i modelli tradizionali in termini di fluidità, reattività e capacità di gestire compiti complessi in tempo reale.

Leggi l'articolo originale →

← Torna alle news