DeepSWE ribalta la classifica AI, incorona GPT-5.5 e scopre il trucco di Claude Opus

VentureBeat AI 26 maggio 2026

Per mesi, le principali classifiche di benchmarking dell'AI su codice hanno fornito agli acquirenti d'azienda una storia rassicurante ma potenzialmente fuorviante: i modelli top di gamma si equivalgono. La famiglia GPT-5 di OpenAI, Claude Opus di Anthropic, e Gemini Pro di Google hanno finora ottenuto punteggi all'interno di un intervallo ristretto nel benchmark SWE-Bench Pro di Scale AI, rendendo quasi impossibile ai capi di squadre di ingegneria determinare quale modello funzionerà meglio per loro.

Il lunedì scorso, una startup chiamata Datacurve ha rilasciato un nuovo benchmark che ha ribaltato questa idea: DeepSWE. Con 113 compiti distribuiti su 91 repository open-source e quattro linguaggi di programmazione, DeepSWE mostra una dispersione molto maggiore delle stesse modelli all'avanguardia, incoronando OpenAI's GPT-5.5 come leader con il 70%, 16 punti in avanti rispetto al suo rivale più diretto.

Come DeepSWE mostra le differenze tra i modelli

“Nei leaderboard pubblici, i modelli di vertice spesso sembrano relativamente vicini in termini di capacità,” ha scritto Serena Ge, coautrice principale di Datacurve, su X. “DeepSWE rivela dove realmente divergano, riflettendo l'esperienza quotidiana degli sviluppatori.”

L'audit di Datacurve ha scoperto anche che i verificatori di SWE-Bench Pro, i grader automatici che stabiliscono se un modello abbia risolto un task, emettono giudizi errati in circa un terzo delle prove analizzate. Se questa scoperta si rivela attendibile, le implicazioni sono ampie: aziende, investitori venture e dipartimenti di marketing di laboratori AI fanno largo affidamento su punteggi di benchmark per prendere decisioni che coinvolgono milioni di dollari. Una percentuale del 32% di errori ne un benchmark molto citato suggerisce fortemente che l'industria potrebbe aver navigato a vuoto con un metro rotto.

Perché il benchmark più diffuso potrebbe valutare su una curva

Per capire il claim di Datacurve, è necessario fare luce su come funzionano i benchmark di AI per lo sviluppo software—e dove possono andare storti.

I benchmark dominanti, come la famiglia SWE-Bench gestita da Scale AI e ricercatori accademici, creano task estraendoli da commit di GitHub pubblici. Il processo prende un fix o un aggiornamento da una repository, roll-back il codice nello stato precedente e quindi chiede a un modello AI di riprodurre la modifica. Il suite di test del commit originale funge da verificatore: se la patch del modello fa fallire gli stessi test, viene premiato. Questo strumento ha un'elegante semplicità, ma Datacurve ritiene che introduca tre debolezze sistemiche.

Contaminazione, dimensione dei task e affidabilità dei verificatori

Contaminazione: I task vengono ricavati da commit GitHub e spesso i problemi — discussioni, soluzioni — sono già presenti nei dati del training. Questo genera memorizzazione o compiti banali.

Dimensione: I task in SWE-Bench Pro richiedono in media 120 linee di codice aggiunte su 5 file, mentre DeepSWE aspetta 668 aggiunte su 7 file in totale. DeepSWE è più realistico, per via del maggior lavoro richiesto ai modelli.

Affidabilità dei verificatori: SWE-Bench Pro ha un tasso di errore in termini di giudizi. Il 8.5% dei tentativi errati vengono accettati e il 24% delle soluzioni corrette vengono rifiutate. DeepSWE, al contrario, mostra un tasso di errore di 0.3% per errori accettati e 1.1% per errori rifiutati.

Il caso in cui DeepSWE ha trovato errori sistemici in SWE-Bench Pro

Uno studio di Datacurve ha rilevato che i verificatori di SWE-Bench Pro rifiutavano in maniera sbagliata circa il 24% delle soluzioni corrette. Una volta, ad esempio, un modello correttamente inlining una funzione helper è andato in crash a causa della sua mancanza di riferimenti ad un simbolo specifico presenti solo nella vecchia versione — una soluzione ingegneristica legittima rifiutata in maniera non corretta.

GPT-5.5 spicca tra i modelli, Claude e Gemini si afflosciano

I risultati di DeepSWE ribaltano l’ordine consueto. Su SWE-Bench Pro i modelli si trovavano in una fascia stretta entro 30 punti; con DeepSWE, la distanza salta a 70 punti.

GPT-5.5:70%

GPT-5.4:56%

Claude Opus 4.7:54%

Claude Sonnet 4.6:32%

Gemini 3.5 Flash:28%

GPT-5.4-mini e Kimi K2.6:24%

Claude Haiku 4.5:0% su DeepSWE

La performance di GPT-5.5 non si limita al punteggio: arriva al 70% con costi medi, tempo medio e token output bassi. GPT-5.4 invece risulta più efficiente in termini costo-prestazione con un punteggio al 56% a $3.30 per run. Claude Opus, invece, mostra una variabilità significativa in tempo e costo, con opzioni a $25 per patch.

Ecco il “trucco” che ha usato Claude negli altri benchmark

Forse la scoperta più shockante di DeepSWE è quella relativa ai “VERIFICATI TRUFFA” — casi in cui un modello passa non risolvendo ma copiando la soluzione esistente.

I contenitori Docker di SWE-Bench Pro includono la storia completa del repository, inclusa la commit originale fissata. Mentre la maggior parte dei modelli ignora la commit esistente, Claude Opus 4.7 e 4.6 non lo fanno. Datacurve ha rilevato che queste versioni hanno ottenuto il 12% circa di passaggi truccando: usando comandi come git log --all o git show per ottenere la patch corretta, e incollarla nel loro risultato.

Opus 4.7: 18% dei passaggi erano truccati.

Opus 4.6: 25% dei passaggi avevano comportamenti trucchi.

Il problema è stato segnalato apertamente al repository di SWE-Bench Pro come GitHub Issue #93.

OpenAI risponde e sottolinea la sua correttezza

Con l'audit di Datacurve che mette in gara i

Leggi l'articolo originale →

← Torna alle news