OpenAI presenta GPT-5.2: Il modello più avanzato per compiti professionali

OpenAI 11 aprile 2026

OpenAI è entusiasta di annunciare il lancio di GPT-5.2, la sua serie di modelli più sofisticata e avanzata fino ad oggi, progettata specificamente per affrontare le sfide dei compiti professionali che richiedono una profonda conoscenza e un'ampia gamma di competenze. Questo nuovo modello rappresenta un passo significativo nell'evoluzione dell'intelligenza artificiale, offrendo capacità potenziate e prestazioni rivoluzionarie.

L'introduzione di GPT-5.2 arriva in un momento in cui l'intelligenza artificiale generativa sta già dimostrando il suo valore nel mondo aziendale. Secondo un rapporto di OpenAI, l'utente medio di ChatGPT Enterprise dichiara un risparmio di tempo giornaliero compreso tra 40 e 60 minuti. Per gli utenti più assidui, questo risparmio può superare le 10 ore settimanali. Con GPT-5.2, OpenAI si propone di aumentare ulteriormente questo valore economico, fornendo miglioramenti sostanziali in aree critiche del lavoro professionale. Tra queste, la creazione di fogli di calcolo complessi, l'elaborazione di presentazioni di alta qualità, la scrittura e il debug di codice, l'interpretazione di immagini, la comprensione di contesti estesi, l'uso autonomo di strumenti e la gestione di progetti complessi a più fasi.

GPT-5.2 non solo promette miglioramenti, ma stabilisce anche un nuovo standard in molteplici valutazioni di riferimento. In particolare, nel benchmark GDPval, il modello supera i professionisti del settore in compiti specializzati che abbracciano ben 44 occupazioni diverse, dimostrando la sua eccezionale versatilità e competenza trasversale.

Prestazioni rivoluzionarie nei benchmark chiave

La superiorità di GPT-5.2 Thinking rispetto ai modelli precedenti è evidente attraverso una serie di benchmark rigorosi. La tabella seguente illustra il notevole balzo in avanti nelle prestazioni, evidenziando come GPT-5.2 Thinking superi costantemente GPT-5.1 Thinking (o GPT-5 in un caso) in diverse aree cruciali, dal ragionamento astratto all'ingegneria del software, passando per le matematiche avanzate e le domande scientifiche.

Benchmark	Descrizione	GPT-5.2 Thinking	GPT-5.1 Thinking / GPT-5
GDPval (vittorie o pareggi)	Compiti professionali che richiedono conoscenze	70,9 %	38,8 % (GPT-5)
SWE-Bench Pro (pubblico)	Ingegneria del software	55,6 %	50,8 %
SWE-bench Verified	Ingegneria del software	80,0 %	76,3%
GPQA Diamond (senza strumenti)	Domande scientifiche	92,4 %	88,1%
Ragionamento CharXiv (con Python)	Domande su figure scientifiche	88,7 %	80,3 %
HMMT (febbraio 2025)	Torneo di matematica	99,4 %	96,3 %
FrontierMath (Livello 1–3)	Matematica avanzata	40,3 %	31,0 %
ARC-AGI-1 (Verificato)	Ragionamento astratto	86,2 %	72,8%
ARC-AGI-2 (Verificato)	Ragionamento astratto	52,9 %	17,6 %

Disponibilità e accesso

Il lancio di GPT-5.2 Instant, Thinking e Pro in ChatGPT inizierà oggi, partendo dai piani di pagamento. Per quanto riguarda l'API, questi modelli sono già disponibili per tutti gli sviluppatori, consentendo l'integrazione delle nuove funzionalità in un'ampia gamma di applicazioni e servizi.

GPT-5.2 introduce miglioramenti significativi nell'intelligenza generale, nella comprensione di contesti estesi, nell'uso autonomo di strumenti (con agenti) e nella visione. Questo lo rende il modello più capace finora per eseguire in modo completo compiti complessi del mondo reale, offrendo una soluzione versatile per le esigenze professionali più esigenti.

Prestazioni superiori nelle attività professionali (GDPval)

GPT-5.2 Thinking si afferma come il modello migliore finora per l'uso professionale in ambienti reali. Nella valutazione GDPval, un benchmark che misura compiti ben definiti di lavoro di conoscenza in 44 occupazioni, GPT-5.2 Thinking stabilisce un nuovo record ed è il primo modello di OpenAI a raggiungere o superare il livello di un esperto umano. Nello specifico, GPT-5.2 Thinking supera o eguaglia i principali professionisti del settore nel 70,9% dei confronti in compiti di lavoro che richiedono conoscenze di GDPval, secondo il giudizio di esperti umani. Questi compiti includono la creazione di presentazioni, fogli di calcolo e altri artefatti complessi.

Un aspetto rivoluzionario è l'efficienza: GPT-5.2 Thinking ha generato risultati per i compiti di GDPval a una velocità oltre 11 volte superiore e a meno dell'1% del costo rispetto ai professionisti esperti. Questo suggerisce che, combinato con la supervisione umana, GPT-5.2 può rappresentare un aiuto inestimabile nel lavoro professionale. Le stime di velocità e costo si basano su metriche storiche; la velocità in ChatGPT può variare.

In GDPval, i modelli tentano di eseguire lavori di conoscenza ben definiti che abbracciano 44 occupazioni provenienti dalle 9 principali industrie che contribuiscono al PIL degli Stati Uniti. I compiti richiedono prodotti di lavoro reali, come presentazioni di vendita, fogli di calcolo contabili, orari di assistenza urgente, diagrammi di produzione o video brevi. In ChatGPT, GPT-5.2 Thinking dispone di nuovi strumenti che GPT-5 Thinking non possiede.

Nel recensire un risultato particolarmente eccellente, un valutatore di GDPval ha commentato: «È un salto entusiasmante e notevole nella qualità del risultato... [sembra] che sia stato realizzato da un'azienda professionale con personale, e ha un design sorprendentemente ben elaborato e consigli per entrambe le consegne, sebbene in una di esse ci siano ancora alcuni errori minori da correggere.»

Inoltre, nella valutazione interna di OpenAI sui compiti di modellazione in fogli di calcolo per analisti junior di investment banking, come l'elaborazione di un modello dei tre stati finanziari di un'azienda Fortune 500 con il formato e i riferimenti corretti, o la costruzione di un modello di acquisizione con leva finanziaria (LBO) per un'acquisizione privata, il punteggio medio per compito di GPT-5.2 Thinking è superiore del 9,3% rispetto a quello di GPT-5.1, con un aumento dal 59,1% al 68,4%. I confronti fianco a fianco evidenziano un miglioramento significativo nella sofisticazione e nella formattazione dei fogli di calcolo e delle diapositive generate da GPT-5.2 Thinking.

Per utilizzare le nuove capacità di fogli di calcolo e presentazioni in ChatGPT, è necessario avere un piano a pagamento e selezionare GPT-5.2 Thinking o Pro. È importante notare che i compiti complessi potrebbero richiedere diversi minuti per essere completati.

Eccellenza nell'ingegneria del software

GPT-5.2 Thinking stabilisce un nuovo standard all'avanguardia del 55,6% in SWE-Bench Pro, una valutazione rigorosa di ingegneria del software in ambienti reali. A differenza di SWE-Bench Verified, che testa solo Python, SWE-Bench Pro valuta quattro linguaggi e si propone di essere più resistente alla contaminazione, più esigente, diversificato e rilevante per l'industria. Nella valutazione SWE-Bench Verified (senza tracciamento), GPT-5.2 Thinking ha raggiunto un nuovo record con l'80% di successi.

Nell'uso professionale quotidiano, questi risultati si traducono in un modello capace di effettuare il debug del codice di produzione in modo più affidabile, implementare richieste di nuove funzionalità, refactorizzare grandi basi di codice e fornire correzioni complete con un intervento manuale minimo. Questo significa che gli sviluppatori possono dedicare meno tempo a compiti ripetitivi e più tempo all'innovazione.

GPT-5.2 Thinking supera anche GPT-5.1 Thinking nell'ingegneria del software front-end. I valutatori hanno notato che gestisce molto meglio lo sviluppo front-end e le interfacce complesse o poco convenzionali, specialmente quelle che includono elementi 3D. Ciò lo rende un alleato potente per gli ingegneri full stack nel loro lavoro quotidiano, capace di generare codice e design complessi a partire da un singolo prompt. I primi valutatori hanno condiviso il loro entusiasmo per le capacità di codifica di GPT-5.2, sottolineando la sua efficacia nel risolvere problemi complessi e nel velocizzare lo sviluppo.

Riduzione delle allucinazioni

Uno dei miglioramenti più critici in GPT-5.2 Thinking è la sua ridotta tendenza alle allucinazioni rispetto a GPT-5.1 Thinking. In un insieme di query anonimizzate di ChatGPT, le risposte con errori sono state ridotte del 38% in termini relativi. Per i professionisti, ciò si traduce in un minor numero di errori quando si utilizza il modello per la ricerca, la redazione, l'analisi e il supporto alle decisioni, rendendolo più affidabile per il lavoro di conoscenza quotidiano.

Il livello di ragionamento è stato configurato al massimo disponibile ed è stato abilitato uno strumento di ricerca. Gli errori sono stati identificati da altri modelli, che possono anch'essi sbagliare. I tassi di errore a livello di affermazione sono molto più bassi rispetto ai tassi a livello di risposta, dato che la maggior parte delle risposte contiene diverse affermazioni.

È importante sottolineare che, come tutti i modelli, GPT-5.2 Thinking è imperfetto. Per qualsiasi questione critica, è sempre consigliabile verificare due volte le risposte ottenute.

Comprensione del contesto esteso

Il ragionamento di GPT-5.2 segna un nuovo standard nella comprensione di contesti lunghi e raggiunge una performance leader in OpenAI MRCRv2, una valutazione che misura la capacità di un modello di integrare informazioni distribuite lungo documenti estesi. In compiti del mondo reale, come l'analisi approfondita di documenti che richiedono la correlazione di informazioni lungo centinaia di migliaia di token, GPT-5.2 Thinking è sostanzialmente più preciso di GPT-5.1 Thinking. In particolare, è il primo modello che OpenAI ha visto capace di raggiungere una precisione vicina al 100% nella variante MRCR a 4 aghi (fino a 256.000 token).

In termini pratici, questa capacità consente ai professionisti di utilizzare GPT-5.2 per lavorare con documenti estesi, come rapporti, contratti, articoli di ricerca, trascrizioni e progetti multi-file, mantenendo la coerenza e l'accuratezza lungo centinaia di migliaia di token. Questo rende GPT-5.2 particolarmente adatto per l'analisi approfondita, la sintesi e i flussi di lavoro complessi che coinvolgono molteplici fonti di informazione.

In OpenAI-MRCRv2 (risoluzione di coreferenze di varia natura), i modelli vengono valutati sulla loro capacità di comprendere e correlare entità e riferimenti distribuiti in documenti molto lunghi.

Leggi l'articolo originale →

← Torna alle news