OpenAI presenta GPT-5.2, i modelli più performanti per il lavoro intellettuale
OpenAI lancia GPT‑5.2, la serie di modelli più performante finora realizzata per il lavoro intellettuale dei professionisti.
Oggi, l'utente medio di ChatGPT Enterprise stima che l'IA gli faccia guadagnare da 40 a 60 minuti al giorno, e gli utenti intensivi dichiarano di guadagnare oltre 10 ore a settimana. Abbiamo progettato GPT‑5.2 per creare un valore economico ancora maggiore per gli utenti; è più efficace nella creazione di fogli di calcolo, nella progettazione di presentazioni, nella scrittura di codice, nell'analisi di immagini, nella comprensione di contesti molto lunghi, nell'uso di strumenti e nella gestione di progetti complessi a più fasi.
GPT‑5.2 stabilisce un nuovo standard su numerosi benchmark, incluso GDPval, dove supera i professionisti del settore in compiti specialistici ben definiti che coprono 44 mestieri.
Performance di GPT-5.2 sui benchmark
La tabella seguente illustra le prestazioni di GPT-5.2 Thinking rispetto a GPT-5.1 Thinking su diversi benchmark chiave:
- GDPval (vittorie o pareggi): Compiti di lavoro intellettuale: 70,9% (vs 38,8% per GPT-5)
- SWE-Bench Pro (pubblico): Ingegneria del software: 55,6% (vs 50,8%)
- SWE-bench Verified: Ingegneria del software: 80,0% (vs 76,30%)
- GPQA Diamond (senza strumenti): Domande scientifiche: 92,4% (vs 88,10%)
- CharXiv Reasoning (con Python): Domande su figure scientifiche: 88,7% (vs 80,3%)
- HMMT (febbraio 2025): Torneo di matematica: 99,4% (vs 96,3%)
- FrontierMath (livelli 1 a 3): Matematica avanzata: 40,3% (vs 31,0%)
- ARC-AGI-1 (Verified): Ragionamento astratto: 86,2% (vs 72,80%)
- ARC-AGI-2 (Verified): Ragionamento astratto: 52,9% (vs 17,6%)
Disponibilità e miglioramenti generali
In ChatGPT, i modelli GPT‑5.2 Instant, Thinking e Pro sono in fase di distribuzione a partire da oggi, iniziando con le formule a pagamento. Nell'API, sono già disponibili per tutti gli sviluppatori.
Complessivamente, GPT‑5.2 apporta miglioramenti significativi nell'intelligenza generale, nella comprensione di contesti lunghi, nella chiamata di strumenti in modo agentico e nella visione, rendendolo più performante di tutti i modelli precedenti nell'esecuzione end-to-end di compiti complessi ancorati alla realtà.
GPT-5.2 Thinking: superare gli esperti umani con GDPval
GPT‑5.2 Thinking è ad oggi il miglior modello per usi professionali concreti. Sul benchmark GDPval, che misura compiti di lavoro intellettuale ben specificati in 44 professioni, GPT‑5.2 Thinking stabilisce un nuovo record e diventa il nostro primo modello a eguagliare o superare il livello di un esperto umano. In concreto, secondo giudici umani esperti, GPT‑5.2 Thinking supera o eguaglia i migliori professionisti del settore nel 70,9% dei confronti sui compiti specialistici di GDPval. Questi compiti includono la creazione di presentazioni, fogli di calcolo e altri prodotti finali. GPT‑5.2 Thinking ha eseguito i compiti GDPval oltre 11 volte più velocemente e per meno dell'1% del costo degli esperti umani, il che suggerisce che, con un'adeguata supervisione, GPT‑5.2 può realmente supportare il lavoro professionale. Le stime di velocità e costo si basano su misurazioni storiche; la velocità in ChatGPT può variare.
Nel benchmark GDPval, i modelli svolgono compiti di lavoro intellettuale ben definiti che coprono 44 professioni provenienti dai 9 principali settori che contribuiscono al PIL degli Stati Uniti. I compiti richiedono prodotti finali reali, come presentazioni commerciali, fogli di calcolo contabili, piani di assistenza di emergenza, schemi di produzione o brevi video. In ChatGPT, GPT‑5.2 Thinking propone strumenti aggiuntivi che GPT‑5 Thinking non ha.
Esaminando un risultato particolarmente riuscito, uno dei giudici di GDPval ha commentato: «Questo è un progresso entusiasmante e molto visibile in termini di qualità... sembra che il lavoro sia stato prodotto da un'azienda professionale con team dedicati, con un layout sorprendentemente ben progettato e ottimi consigli per entrambi i prodotti finali, anche se abbiamo ancora qualche piccolo errore da correggere su uno di essi.»
Miglioramenti nella modellazione su fogli di calcolo
Inoltre, sul nostro benchmark interno di compiti di modellazione su fogli di calcolo per analisti entry-level in banca d'investimento — ad esempio costruire un modello finanziario "a tre stati" per un'azienda Fortune 500 con formattazione e riferimenti corretti, o costruire un modello di leveraged buyout per un delisting — il punteggio medio per compito di GPT‑5.2 Thinking è superiore del 9,3% rispetto a quello di GPT‑5.1, passando dal 59,1% al 68,4%.
Confronti dettagliati mostrano una maggiore sofisticazione e una migliore formattazione nei fogli di calcolo e nelle diapositive generate da GPT‑5.2 Thinking:
Esempio di prompt per fogli di calcolo e presentazioni:
Prompt: Crea un modello di pianificazione del personale: organico, piano di assunzione, tasso di abbandono e impatto sul budget. Includi i dipartimenti di ingegneria, marketing, legale e vendite.
Per utilizzare le nuove funzionalità di creazione di fogli di calcolo e presentazioni in ChatGPT, è necessario disporre di un abbonamento a pagamento e selezionare GPT‑5.2 Thinking o Pro. Le generazioni complesse possono richiedere diversi minuti.
Ingegneria del software con GPT-5.2 Thinking
GPT‑5.2 Thinking stabilisce un nuovo standard del 55,6% su SWE-bench Pro, una rigorosa valutazione dell'ingegneria del software in condizioni reali. A differenza di SWE-bench Verified, che testa solo Python, SWE-bench Pro testa quattro linguaggi e mira ad essere più resistente alla contaminazione, più esigente, più diversificato e più rilevante a livello industriale.
Su SWE-Bench Verified (non rappresentato nel grafico), GPT‑5.2 Thinking raggiunge un nuovo record dell'80%.
In concreto, per un uso professionale quotidiano, questo si traduce in un modello capace di eseguire il debug in modo affidabile di più codice in produzione, di implementare richieste di funzionalità, di effettuare il refactoring di ampie basi di codice e di fornire correzioni end-to-end con meno intervento manuale.
GPT‑5.2 Thinking è anche più performante di GPT‑5.1 Thinking nello sviluppo front-end. I primi tester lo hanno giudicato nettamente più performante per lo sviluppo front-end e le interfacce utente complesse o non convenzionali — soprattutto quando coinvolgono elementi 3D — rendendolo un potente partner quotidiano per gli ingegneri sull'intera stack. Ecco alcuni esempi di ciò che può produrre da un singolo prompt:
Esempio di prompt per lo sviluppo front-end:
Prompt: Crea un'applicazione a pagina singola in un singolo file HTML che soddisfi i seguenti requisiti:
- Nome: Ocean Wave Simulation
- Obiettivo: mostrare onde animate realistiche.
- Funzionalità: modificare la velocità del vento, l'altezza delle onde e l'illuminazione.
- L'interfaccia deve essere rilassante e realistica.
Feedback degli sviluppatori sul codice di GPT-5.2:
«GPT‑5.2 rappresenta il più grande balzo in avanti dei modelli GPT per la programmazione agentica da GPT-5, ed è un modello di codifica all'avanguardia nella sua fascia di prezzo. Il semplice cambiamento del numero di versione non riflette l'ampiezza del salto nell'intelligenza. Siamo entusiasti di renderlo il modello predefinito in Windsurf e su diversi carichi di lavoro chiave di Devin.»
Jeff Wang, amministratore delegato (CEO), Windsurf
Riduzione delle allucinazioni e maggiore affidabilità
GPT‑5.2 Thinking allucina meno di GPT‑5.1 Thinking. Su un insieme di query deidentificate provenienti da ChatGPT, le risposte contenenti errori erano il 38% meno frequenti (in valore relativo). Per i professionisti, questo si traduce in meno errori quando si utilizza il modello per la ricerca, la redazione, l'analisi e il supporto decisionale, rendendolo più affidabile per il lavoro intellettuale quotidiano.
Il livello di sforzo di ragionamento era impostato sul valore massimo disponibile e uno strumento di ricerca era attivo. Gli errori sono stati rilevati da altri modelli, che possono a loro volta commetterne. I tassi di errore a livello delle singole affermazioni sono significativamente inferiori ai tassi di errore a livello della risposta, poiché la completezza delle affermazioni in una risposta è spesso corretta anche se una singola affermazione contiene un errore.