Meituan open sources LongCat-2.0, il modello di coding agenziale da 1,6T che guida OpenRouter
Meituan, l'azienda cinese della consegna, ha ufficialmente svelato il modello LongCat-2.0 da 1,6 trilioni di parametri su GitHub, Hugging Face e la sua piattaforma nativa. Il modello è alla base del modello anonimo Owl Alpha, che negli ultimi due mesi ha dominato le classifiche globali di OpenRouter.
Disruption del mercato enterprise e open source
LongCat-2.0 è un sistema Mixture-of-Experts (MoE) progettato per rovesciare il dominio chiuso delle aziende nel campo dell'ingegneria software autonomo. Con un contesto massimo di 1 milione di token, il modello è reso disponibile al pubblico bajo una licenza MIT molto permissiva.
Accesso commerciale e prezzo competitivo
I pacchetti di accesso commerciale includono una fascia di prezzo aggressiva. Tutte le richieste in cache vengono processate gratuitamente. È presente inoltre un paradigma di vendita "Token Pack" a tempo limitato. Per le richieste che non sono in cache, il prezzo segue uno schema tipico di pagamento "pay-as-you-go" a 0,75 $/2,95 $ ogni milione di token in/out.
Per un periodo limitato, LongCat-2.0 offre un prezzo significativamente ridotto per gli accessi non in cache e output a 0,30 $/1,20 $ ogni milione di token. Il modello rientra tra i principali modelli economici performanti globalmente.
- Owl Alpha ha processato circa 10,1 trilioni di token mensili, con un salto del 242% mese su mese.
- Owl Alpha ha raggiunto il primo posto nel workspace Hermes Agent, il secondo posto in Claude Code e il terzo posto nei ambienti OpenClaw.
Innovazione tecnologica con chip domestici
Il modello è stato addestrato su un cluster di oltre 50 000 chip ASIC cinesi. Questo evidenzia un cambiamento strutturale nella produzione di modelli AI vicino alla frontiera, poiché non dipende più dai normali GPU di Nvidia. Questo sviluppo minaccia il dominio di Nvidia nel settore.
Effetto delle sanzioni americane
Le restrizioni statunitensi imposte ai laboratori di punta spingono i tecnologi a cercare alternative economiche. L'accesso limitato ai modelli di OpenAI e Anthropic ha aperto una finestra operativa per modelli di origine cinese, come il LongCat-2.0 di Meituan.
Metodo di ottimizzazione e contesto
LongCat-2.0 utilizza una scalabilità dei parametri fino a 1,6 trilioni con un calcolo medio di 48 miliardi per token. La sua struttura si basa su un framework di "Zero-Compute Experts", che elimina il sovraccarico computazionale inutilizzando.
Sparse Attention e nuovi moduli
L'implementazione di LongCat Sparse Attention (LSA), un'evoluzione della tecnica DeepSeek Sparse Attention, riduce i costi computazionali quadratici e le frammentazioni di memoria. LSA opera attraverso tre vettori distinti:
- Streaming-aware Indexing (SI): ristruttura il processo di accesso ai token per ottimizzare l'utilizzo di memoria HBM.
- Cross-Layer Indexing (CLI): riduce i costi calcolati replicando i risultati in strati consecutivi grazie alla distillazione interslivi.
- Hierarchical Indexing (HI): adotta un approccio bidirezionale in due fasi per ridurre il sovraccarico I/O.
Moduli e capacità di embedding
Meituan ha integrato un modulo N-gram Embedding nella struttura del modello, aumentando lo spazio di embedding di circa 100 volte. L'architettura aggiunge 135 miliardi di parametri, che accelerano l'inferenza batch estrema.
Valutazione benchmark e performance
LongCat-2.0 si concentra sui compiti ingegneristici multi-step e sull'integrazione con strumenti. Il modello ha raggiunto punteggi impressionanti:
- SWE-bench Pro: 59,5
- Terminal-Bench 2.1: 70,8
- SWE-bench Multilingual: 77,3
- FORTE (simulatore aziendale): 73,2
Il modello ha superato in benchmark la performance di GPT-5.5. Questi risultati evidenziano che LongCat-2.0 è specializzato e adatto a complessi ambienti di lavoro aziendali.