Qwen3.7-Max risolve compiti di sviluppo complessi in 1158 passaggi autonomi

The Decoder (DE) 23 maggio 2026

Lançamento do Qwen3.7-Max

Il Qwen-Team di Alibaba ha annunciato Qwen3.7-Max, un nuovo modello di intelligenza artificiale progettato appositamente per compiti autonomi, disponibile esclusivamente tramite interfaccia programmabile. Questo modello è studiato per gestire complessi progetti software e operare autonomamente per lungo tempo. Durante i test pratici, ha ottimizzato autonomamente il codice e ha lavorato più velocemente rispetto a molti modelli concorrenti.

La prestazione di Qwen3.7-Max si colloca al livello degli operatori leader. Inoltre, lo team di sviluppo ha utilizzato con successo il modello per identificare autonomamente comportamenti non desiderati e tentativi di trucco durante il training.

Caratteristiche e scopo del modello

Il nuovissimo modello Qwen3.7-Max rientra nella filosofia del Qwen-Team e affronta specificamente attività di tipo agente. Un caso di studio ha coinvolto un'ottimizzazione del kernel completamente autonomo per 35 ore.

Simili a quelli precedentemente lanciati Qwen3-Max e Qwen3.6-Plus, anch'questa varietà massima appare solo attraverso API su Modello Alibaba Cloud Studio. Per molto tempo Alibaba ha pubblicato i propri modelli Qwen in Open Source, ma di recente il trend è cambiato, con l'ultimo modello di successo Qwen3.5-397B-A17B rilasciato a Febbraio 2026.

Qwen3.7-Max supporta le interfacce API compatibili con OpenAI e Anthropic, e può essere facilmente integrato in strumenti come Claude Code, OpenClaw o Qwen Code.

Agente di programmazione dal prototipo front-end a software complessi multilivello
Automatizzazione delle operazioni di ufficio tramite strumenti esterni
Indipendenza lunga tempo
Uniformità di prestazione in diversi framework di agenti

Test di ottimizzazione di 35 ore

Nel test su Qwen3.7-Max, il modello è stato istruito per ottimizzare il kernel di attenzione per un software open-source inference SGLang. La macchina utilizzata era un'istanza cloud con acceleratori di T-Head ZW-M890, una piattaforma a chip di intelligenza artificiale appena acquisita da Alibaba.

La struttura di questa architettura non è mai stata vista durante il training, quindi il modello ha iniziato il lavoro senza dati di misura, documentazione hardware o codice esemplare, eccetto il codice di reference scritto in Triton.

Nel corso di circa 35 ore di lavoro autonomo continuo, il modello ha effettuato 432 test sul kernel con un totale di 1158 chiamate ad strumenti. Ha compilato, misurato e riformulato iterativamente il codice, diagnosticato errori durante il processo di compilazione e individuato collo di bottiglia di prestazioni. Alla fine è stato riscontrato un vantaggio medio di velocità di dieci volte rispetto all'implementazione di riferimento.

Confronto con modelli concorrenti

Nel medesimo setup, i modelli concorrenti hanno conseguito valori significativamente inferiori. GLM 5.1 ha ottenuto un velocizzamento di 7,3 volte, Kimi K2.6 ha raggiunto un 5, Kimi K2.6 ha raggiunto un 5 volte, DeepSeek V4 Pro ha ottenuto un miglioramento di 3,3 volte, e il modello precedente, Qwen3.6-Plus, ha ottenuto solo un incremento di 1,1 volte.

I modelli che hanno terminato l'esecuzione in anticipo sono rimasti volontariamente inattivi dopo cinque turni consecutivi senza chiamate ad strumenti. Nel benchmark standardizzato KernelBench-L3, Qwen3.7-Max, secondo il suo stesso studio, produce kernel velocizzati nel 96% degli casi, quasi dietro ad Opus 4.6 di Anthropic con un 98%.

Separazione del compito, ambiente degli strumenti e valutatore

La metodologia di apprendimento utilizzata da Qwen3.7-Max è basata su un approccio di formazione introdotto con Qwen3.5. Ogni compito di training viene scomposto in tre componenti autonomi. Il compito stesso, l'ambiente degli strumenti ed il valutatore delle espressioni possono essere rimpiazzati e riutilizzati.

In questo modo, lo stesso compito può essere addestrato a diversi ambienti di strumenti e valutato con procedimenti diversi. L'obiettivo del team Qwen è quindi forzare il modello a imparare strategie di risoluzione generalizzabili piuttosto che abbreviazioni che funzionano solo in alcuni ambienti. Le prestazioni di Qwen3.7-Max in QwenClawBench e CoWorkBench risultano stabili a prescindere dall'ambiente di test, afferma il team.

Monitoraggio autonomo del reward hacking

Il team Qwen ha utilizzato Qwen3.7-Max anche come osservatore nel proprio training. Per più di 80 ore, il modello ha controllato run di training per compiti di ingegneria del software ed ha svolto più di 10 mila valutazioni per individuare tentativi del modello sottoposto al training per rubare premi, ad esempio scaricando risposte corrette su GitHub.

In totale, Qwen3.7-Max ha formulato 13 nuove regole di identificazione e ha segnalato 1.618 casi di siffatti tentativi:

Analisi di traiettorie
Incremento con nuove regole
Rilevamento di casi

Test a lungo termine

Per provare le competenze di pianificazione a lungo termine, il team ha utilizzato YC-Bench, un benchmark che simula un ciclo annuale di vita di startup. Il modello deve gestire decisioni su centinaia di turni riguardo alla gestione del personale, revisione di contratti, riconoscimento di clienti dannosi e controllo costituente di profitto di fronte ad aumentati dei salari.

Qwen3.7-Max ha portato a un fatturato complessivo di 2,08 milioni dollari e ha completato 237 compiti, rispetto a Qwen3.6-Plus con 1,05 milioni dollari e Qwen3.5-Plus con 352 mila dollari.

Prestazioni di pari livello Opus

In molti benchmark, Qwen3.7-Max è posizionato spesso sul livello o leggermente sopra a Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking e DeepSeek V4 Pro Max. Nel test SWE-Verified ha ottenuto 80,4 punti, quasi paritario con Opus 4.6 Max (80,8) e DeepSeek V4 Pro Max (80,6). In benchmark matematico-cientifici come GPQA Diamond (92,4), HMMT 2026 Febbraio (97,1) e Apex (44,5) Qwen3.7-Max domina la tab

Leggi l'articolo originale →

← Torna alle news