MiniMax annuncia il nuovo modello M3 con un sistema di attenzione sparsa e un aumento del 15,6 volte nella risposta a lungo contesto
Che il mondo dell'intelligenza artificiale globale veda una moltitudine di aziende cinesi competere per quota di mercato e attenzione—è inevitabile, in un settore così competitivo—MiniMax si distingue per la sua dedizione a fornire intelligenza avanzata in diversi modi, che includono testo, coding e video (attraverso la sua serie di modelli Hailuo)—spesso sotto licenze opensource permissive e amichevole per l'impresa.
Ora, MiniMax attira nuovamente l'attenzione di sviluppatori, utenti avanzati e professionisti AI intorno al mondo, con un rapporto tecnico estremamente dettagliato sui modelli M2 della sua serie, riferendosi ai modelli M2, M2.5, e M2.7, ed esponendo diversi progressi ingegneristici e approcci ingegnosi, mentre ha anche anticipato un nuovo approccio sparsa di attenzione per la sua prossima serie di modelli MiniMax M3, che promette una velocità fino a 15.6 volte più veloce nel decifrare (o risposta LLM di) contesti lunghi (uno milione di tokens) adottando un framework personalizzato sott-quadratico.
Il Dilemma dell'Attenzione
La struttura tecnica centrale dei modelli M2 si basa su una struttura di Misto di Esperti (MoE) decoder-only Transformer, usata da diversi altri LLM di ultima generazione. La struttura di supporto ha complessivamente 229.9 miliardi di parametri, pur mantenendo un footprint operativo estremamente snello attivando solamente 9.8 miliardi di parametri per token, su 256 esperti finemente suddivisi.
Per ottimizzare la routing ed evitare gli usuali problemi di bilanciamento del carico, MiniMax ha implementato un gate sigmoidale abbinato a termini di bias espliciti (apprendibili), riducendo fortemente la dipendenza da perdite ausiliarie ristrette.
La decisione ingegneristica più definitiva documentata nella carta del modello M2 riguarda la rigorosa adesione all'attenzione multi-testa completamente attiva con Grouped Query Attention (GQA) in tutti i 62 strati.
Negli LLM, “scalatura quadratica” fa riferimento a quella realtà computazionalmente costosa in cui ogni token in una serie deve matematicamente connettersi con ogni altro token. Usa come analogia un evento di networking dove uno é costretto a parlare in profondità con ogni persona nella stanza e ad osservare tutti i discorsi in corso in parallelo.
Pur fornitissimo di contesto, i requisiti di potenza di elaborazione e memoria necessari crescono in quadrato rispetto alla lunghezza dell'input, rendendo severi l'intasamento del hardware, non appena i modelli tentano di assorbire centinaia di migliaia di parole.
I Problemi della Scala Sott-Quadratica
La "scalatura sott-quadratica" introduce architetture di scorciatoia progettate per bypassare il relativo sovraccarico computazionale. Al contrario di considerare ogni possibile connessione, i metodi sott-quadratici—come l'Attenzione Finestra Scorrevole oppure l'attenzione condensata lineare—analizzano unicamente finestre di parole locali vicine oppure generano uno schema sintetico del testo più ampio.
Determinando un considerevole risparmio in termini di costi hardware, questi metodi efficienti permettono ai modelli di processare documenti di ampio contenuto con velocità elevate, ma introducono frequentemente significativi compromessi in termini di precisione, spesso causando all'IA la perdita della "visione d'insieme" oppure la perdita di contesti in lontananza.
Questa problematica matematica definisce l'evoluzione architettonica dal modello MiniMax M2 alla sua prossima serie M3. Durante lo sviluppo del modello M2, i ricercatori hanno rigorosamente testato delle scorciatoie sott-quadratiche, ma hanno notato che esse danneggiano la capacità di ragionamento multi-hop del modello, l'abilità di connettere informazioni sparse in un documento lungo, costretti quindi ad assorbire il costo computazionale enorme delle attenzioni quadratiche per mantenere intatta la capacità di intelligenza d'avanguardia.
Effettivamente hanno testato in larga scala le alternative di attenzione efficienti durante la pre-addestramento e deliberatamente le hanno scartate. Hanno sperimentato estesamente con configurazioni ibride, alternando l'attenzione completa a architetture sott-quadratiche come Lightning Attention o configurazioni ibride di Attenzione Finestra Scorrevole (SWA).
Il risultato empirico è stato definitivo: su scale più grandi, le varianti di attenzione lineare e finestrate evidenziavano gravi deficit in ragionamento. Nei test che superavano finestre di contesto da 32K, le varianti SWA avevano prestazioni significativamente peggiori rispetto all'attenzione completa, passando da un punteggio di baseline di 90.0 a 72.0 nel compito complesso di estrazione di parole nella serie RULER a 128K.
I Configurazioni Sott-Quadratiche Dimostrano Vincoli di Memoria
Le configurazioni sott-quadratiche sono risultate sensibili a vincoli di memoria durante l’addestramento, mancavano del supporto native di caching prefix e fallivano a unirsi fluidamente ai moduli MTP usati per il decoding speculative. L'attenzione completa era necessaria per preservare la capacità di ragionamento a salto multiplo.
Tuttavia, riconoscendo che i limiti fisici del hardware non possono sostenere indefinitamente l’escalat quadratica, MiniMax progetta la serie M3 intorno ad un nuovo framework sott-quadratico per finalmente offrire tanto velocità nell’elaborazione, quanto ragionamento esemplare.
MiniMax Sparse Attention (MSA) e Scalatura Sott-Quadratica in Arrivo
Il modello imminente MiniMax-M3 abbandona i vincoli computazionali pesanti del suo predecessore. Come rivelato dall’équipe ingegneristica di MiniMax sotto lo slogan “Qualcosa di grande sta arrivando”, M3 introduce la “MiniMax Sparse Attention” (MSA).
- Contrariamente alla MLA (Multi-head Latent Attention) di DeepSeek, che comprime chiavi e valori in uno spazio latente di dimensioni basse, MSA funziona su una base GQA standard ma utilizza selezione a livello di blocco sui veri Key-Values non compressi.
- Elie Bakouch, al laboratorio di piattaforme e infrastruttura di addestramento AI Prime Intellect ha postato su X osservando che i cambiamenti principali presentano “una selezione a livello di blocco come in CSA, ma l’attenzione è fatta sui KV reali, non nello spazio compresso.”
- Questo risolve le perdite di precisione e gli ostacoli di cache prefix segnalati nel rapporto del modello M2. Filtrando e selezionando dinamicamente le sequenze a livello di blocco, MSA fornisce un balzo architettonico: le prime prove hardware indicano un aumento di velocità del