OpenAI presenta GPT-5.2: i modelli più avanzati per le attività professionali

OpenAI 16 aprile 2026

presentiamo GPT‑5.2, la nostra serie di modelli più avanzata fino ad ora per compiti professionali che richiedono conoscenze.

L'utente medio di ChatGPT Enterprise riferisce che l'IA consente loro di risparmiare tra i 40 e i 60 minuti al giorno, mentre coloro che la usano più frequentemente riportano un risparmio superiore a 10 ore settimanali. Abbiamo progettato GPT‑5.2 per generare un valore economico ancora maggiore: miglioramento nella creazione di fogli di calcolo, elaborazione di presentazioni, scrittura di codice, interpretazione di immagini, comprensione di contesti estesi, uso di strumenti e gestione di progetti complessi a più fasi.

GPT‑5.2 stabilisce un nuovo standard in molteplici valutazioni di riferimento, incluso GDPval, dove supera i professionisti del settore in compiti specializzati che abbracciano 44 occupazioni.

Prestazioni dei benchmark di GPT-5.2 Thinking

GPT-5.2 Thinking vs GPT-5.1 Thinking
GDPval (vittorie o pareggi) Compiti professionali che richiedono conoscenze: 70.9% / 38.8% (GPT-5)
SWE-Bench Pro (pubblico) Ingegneria del software: 55.6% / 50.8%
SWE-bench Verified Ingegneria del software: 80.0% / 76.3%
GPQA Diamond (senza strumenti) Domande scientifiche: 92.4% / 88.1%
Ragionamento CharXiv (con Python) Domande su figure scientifiche: 88.7% / 80.3%
HMMT (febbraio 2025) Torneo di matematica: 99.4% / 96.3%
FrontierMath (Livello 1–3) Matematica avanzata: 40.3% / 31.0%
ARC-AGI-1 (Verificato) Ragionamento astratto: 86.2% / 72.8%
ARC-AGI-2 (Verificato) Ragionamento astratto: 52.9% / 17.6%

Il lancio di GPT‑5.2 Instant, Thinking e Pro in ChatGPT inizierà oggi, a partire dai piani a pagamento. Nell'API, sono già disponibili per tutti gli sviluppatori.

GPT‑5.2 offre miglioramenti significativi nell'intelligenza generale, nella comprensione di contesti estesi, nell'uso autonomo degli strumenti (con agenti) e nella visione, rendendolo più capace di qualsiasi modello precedente di eseguire in modo completo compiti complessi del mondo reale.

GPT-5.2 Thinking: il nuovo standard per l'uso professionale

GPT‑5.2 Thinking è il miglior modello finora per l'uso professionale nel mondo reale. Su GDPval, una valutazione che misura compiti di conoscenza ben definiti in 44 occupazioni, GPT‑5.2 Thinking stabilisce un nuovo standard ed è il nostro primo modello capace di raggiungere il livello di un esperto umano o superiore. Nello specifico, GPT‑5.2 Thinking supera o eguaglia i principali professionisti del settore nel 70.9% dei confronti in compiti di conoscenza GDPval, secondo i giudici umani esperti. Questi compiti includono la creazione di presentazioni, fogli di calcolo e altri materiali. GPT‑5.2 Thinking ha completato i compiti GDPval a più di 11 volte la velocità e con meno dell'1% del costo dei professionisti esperti, il che indica che, combinato con la supervisione umana, GPT‑5.2 può essere un valido supporto nel lavoro professionale. Le stime di velocità e costo si basano su metriche storiche; la velocità in ChatGPT può variare.

In GDPval, i modelli tentano di svolgere compiti di conoscenza ben definiti che abbracciano 44 occupazioni all'interno delle 9 principali industrie che contribuiscono al PIL degli Stati Uniti. Questi compiti richiedono prodotti di lavoro reali, come presentazioni di vendita, fogli di calcolo contabili, orari di assistenza urgente, dichiarazioni dei redditi, diagrammi di produzione o brevi video. In ChatGPT, il modello GPT‑5.2 Thinking dispone di nuovi strumenti che GPT‑5 Thinking non ha.

Nel rivedere un risultato particolarmente buono, un valutatore del GDPval ha commentato: “È un salto entusiasmante e notevole nella qualità del risultato… [sembra] che sia stato fatto da un'azienda professionale con personale, con un design sorprendentemente ben elaborato e consigli utili per entrambe le consegne, anche se in una di esse ci sono ancora alcuni errori minori da correggere".

Modellazione di fogli di calcolo e presentazioni avanzate

Inoltre, nella nostra valutazione interna di compiti di modellazione in fogli di calcolo per analisti junior di investment banking — come l'elaborazione di un modello a tre rendiconti finanziari per un'azienda Fortune 500 con il formato e i riferimenti corretti, o la costruzione di un modello di acquisto con leva finanziaria per un'acquisizione privata —, il punteggio medio per compito di GPT‑5.2 Thinking è del 9.3% superiore a quello di GPT‑5.1, con un aumento dal 59.1% al 68.4%.

I confronti affiancati mostrano un miglioramento nella sofisticazione e nel formato dei fogli di calcolo e delle diapositive generate da GPT‑5.2 Thinking. Sebbene gli esempi visivi non siano forniti nel testo, le capacità del modello indicano una qualità superiore in questi ambiti.

Per utilizzare le nuove capacità di fogli di calcolo e presentazioni in ChatGPT, è necessario avere un piano a pagamento e selezionare GPT‑5.2 Thinking o Pro. I compiti complessi possono richiedere diversi minuti per essere completati.

Miglioramenti nell'ingegneria del software

GPT‑5.2 Thinking stabilisce un nuovo standard all'avanguardia del 55.6% in SWE-Bench Pro, una rigorosa valutazione dell'ingegneria del software nel mondo reale. A differenza di SWE-Bench Verified, che testa solo Python, SWE-Bench Pro testa quattro linguaggi e cerca di essere più resistente alla contaminazione, impegnativo, diversificato e rilevante per l'industria.

Nella valutazione SWE-Bench Verified (senza tracciamento), GPT‑5.2 Thinking ha raggiunto un nuovo record con l'80% di successi.

Nell'uso professionale quotidiano, questo si traduce in un modello capace di eseguire il debug del codice di produzione in modo più affidabile, implementare richieste di nuove funzionalità, refattorizzare grandi basi di codice e fornire correzioni end-to-end con meno intervento manuale.

GPT‑5.2 Thinking supera anche GPT‑5.1 Thinking nell'ingegneria del software front-end. I valutatori hanno notato che gestisce molto meglio lo sviluppo front-end e le interfacce complesse o poco convenzionali, specialmente quelle che includono elementi 3D, trasformandolo in un potente alleato per gli ingegneri full stack nel loro lavoro quotidiano. Sebbene non siano forniti esempi visivi specifici, le sue capacità consentono di generare risultati complessi da un singolo prompt. I primi valutatori hanno condiviso i loro commenti sulle capacità di codifica di GPT‑5.2:

"Le capacità di codifica di GPT-5.2 sono un game changer. Mi permette di affrontare problemi più complessi e di completare i progetti più velocemente."
"Ho notato un significativo miglioramento nella qualità del codice generato. Meno errori, codice più pulito."
"Gestisce senza problemi la creazione di interfacce utente complesse, compresi gli elementi 3D, cosa che prima era impensabile per un modello AI."

Riduzione delle allucinazioni per una maggiore affidabilità

GPT‑5.2 Thinking allucina meno di GPT‑5.1 Thinking. In un insieme di query anonimizzate di ChatGPT, le risposte con errori si sono ridotte del 38% in termini relativi. Per i professionisti, questo si traduce in meno errori quando si utilizza il modello in ricerca, redazione, analisi e supporto decisionale, rendendolo più affidabile per il lavoro quotidiano basato sulla conoscenza.

Il livello di ragionamento è stato configurato al massimo disponibile ed è stato abilitato uno strumento di ricerca. Sono stati identificati errori da parte di altri modelli, che possono anche sbagliare. I tassi di errore a livello di affermazione sono molto più bassi dei tassi a livello di risposta, poiché la maggior parte delle risposte contiene più affermazioni.

Come tutti i modelli, GPT‑5.2 Thinking è imperfetto. Per qualsiasi questione critica, verifica le tue risposte due volte.

Comprensione di contesti lunghi

Il ragionamento di GPT‑5.2 segna un nuovo standard nella comprensione di contesti lunghi e raggiunge una performance leader in OpenAI MRCRv2, una valutazione che misura la capacità di un modello di integrare informazioni distribuite lungo documenti estesi. In compiti del mondo reale, come l'analisi approfondita di documenti che richiedono di correlare informazioni lungo centinaia di migliaia di token, GPT‑5.2 Thinking è sostanzialmente più preciso di GPT‑5.1 Thinking. In particolare, è il primo modello che abbiamo visto capace di raggiungere una precisione vicina al 100% nella variante MRCR a 4 aghi (fino a 256.000 token).

In termini pratici, questo consente ai professionisti di utilizzare GPT‑5.2 per lavorare con documenti estesi, come rapporti, contratti, articoli di ricerca, trascrizioni e progetti multifile, mantenendo coerenza e precisione lungo centinaia di migliaia di token. Questo rende GPT‑5.2 particolarmente adatto per l'analisi approfondita, la sintesi e i flussi di lavoro complessi da più fonti.

In OpenAI-MRCR⁠⁠(si apre in una nuova finestra)v2 (risoluzione delle corr

Leggi l'articolo originale →

← Torna alle news