Kimi K2.7-Code riduce del 30% i token di elaborazione — ma non tutti condividono le prestazioni dichiarate
Moonshot AI ha rilasciato Kimi K2.7-Code questa settimana, un'aggiornamento open source della sua famiglia di modelli per la programmazione K2, affermando miglioramenti significativi nel ragionamento e aumenti di performance a doppia cifra. K2.7-Code è costruito sulla stessa architettura a mix di esperti ad un triliardo di parametri del predecessore K2.6 e può essere integrato con un API compatibile con OpenAI — una caratteristica rilevante per team che già utilizzano K2.6 nei loro gateway di produzione.
Quando K2.6 è stato lanciato a Aprile, si è classificato come modello più performante nel ranking settimanale OpenRouter, una classifica basata su decisioni reali di routing API da parte degli sviluppatori, non su benchmark dichiarativi. Moonshot AI afferma che K2.7-Code affronta il così chiamato “overthinking”, riducendo del 30% l’uso dei token di elaborazione rispetto a K2.6 — una misura che influirebbe direttamente sui costi di inferenza per team che operano workflows autonomi. Se tale aumento di efficienza riesce a verificarsi con benchmark indipendenti è però una domanda che praticanti del settore stanno già sollevando pubblicamente.
Che cos'è Kimi K2.7-Code
Kimi K2.7-Code viene rilasciato con una licenza MIT modificata, con i pesi disponibili su HuggingFace. Il modello può essere distribuito tramite vLLM o SGLang. È progettato per funzionare esclusivamente in modalità di ragionamento e non supporta l'aggiustamento del "temperature" — Moonshot AI lo ha fissato su 1.0, rendendo impossibile regolare la determinismo dell’output come si potrebbe fare con altri modelli.
La modifica principale rispetto a K2.6 sta in come il modello genera codice a livello basso. Mentre K2.6 produceva implementazioni avvolgendo librerie esistenti e reindirizzando tramite framework consolidati, K2.7-Code genera implementazioni direttamente. Moonshot AI afferma che ciò fornisce una maggiore generalizzabilità in linguaggi come Rust, Go e Python, coprendo tipi di attività che vanno dallo sviluppo front-end alla DevOps e all’ottimizzazione delle prestazioni.
Su benchmark interni, Moonshot afferma di registrare un aumento delle prestazioni del 21.8% su Kimi Code Bench v2, del 11% su Program Bench e del 31.5% su MLS Bench Lite. Si tratta però tutti benchmark di proprietà. Il modello non è stato sottoposto a DeepSWE, un benchmark indipendente che produce un'ampia distribuzione di risultati (70 punti di intervallo) rispetto agli altri benchmark (30 punti di intervallo), rendendolo un segnale più discriminante per team che configurano i propri sistemi di routing modelli.
Di persona, più sincero, ma più debole
Rispetto ai benchmark esterni, il quadro è più complesso. Il ricercatore Elliot Arledge ha testato K2.7-Code confrontandolo con K2.6 e Claude Fable 5 su KernelBench-Hard, un benchmark pubblico focalizzato sull'ottimizzazione dei kernel GPU, e ha pubblicato i suoi log completi su kernelbench.com.
“K2.7 è più sincero ma non più capace,” ha scritto Arledge su X. Su cinque di sei problemi, K2.7-Code ha prodotto kernel Triton scritti autonomamente mentre K2.6 aveva utilizzato wrapper di librerie interne. Due di questi kernel hanno fallito a causa di bug interni al modello. Sul kernel MoE, le performance sono regredite da 0.222 su K2.6 a 0.157 su K2.7-Code.
“Come riferimento, Fable rimane al vertice di ogni cella che non fallisce realmente,” ha commentato.
Riflessione sulle scelte dei benchmark
Sugumaran Balasubramaniyan, sviluppatore che ha costruito un router model-task per la piattaforma Hermes Agent utilizzando DeepSWE come segnale di riferimento, ha pubblicamente commentato il rilascio di K2.7-Code e sfidato direttamente Moonshot AI sulle scelte fatte per i benchmark.
“Rispetto, ogni modello mostra un miglioramento a due cifre nei propri benchmark,” ha dichiarato Balasubramaniyan su X. Ha notato che K2.6 aveva ottenuto un punteggio del 24% su DeepSWE, paritario a GPT-5.4-mini, chiedendo a Moonshot AI se sarebbe stato disposto a sottoporre K2.7-Code allo stesso test.
Balasubramaniyan ha spiegato che gli sono servite quattordici revisioni per ottenere dati corretti per il proprio router e che sarebbe stato disposto a instradare compiti di programmazione verso K2.7-Code se i dati indipendenti confermassero le sue performance.
Che cosa significa per le aziende
Il miglioramento in termini di efficienza di token è utilizzabile immediatamente. I team che già usano K2.6 in produzione possono passare a K2.7-Code attraverso l'API compatibile con OpenAI e aspettarsi costi di inferenza ridotti sui workflow autonomi senza modifiche architetturali. La riduzione del 30% nei token di pensiero è un numero interno di Moonshot, ma il percorso d'integrazione ha bassi rischi per essere testato con i propri carichi di lavoro prima di impegnarsi.
La domanda pratica è se quei miglioramenti in termini di efficienza tengano su una distribuzione di task specifica del team. L’approccio a basso rischio è testare K2.7-Code con i propri carichi di lavoro prima di effettuare modifiche ai pesi del gateway.