Presentiamo GPT-5.5: il nostro modello più intelligente e intuitivo
OpenAI è entusiasta di annunciare il rilascio di GPT-5.5, il nostro modello più intelligente e intuitivo fino ad oggi, e il passo successivo verso un nuovo modo di portare a termine il lavoro su un computer. Questa innovazione rappresenta un progresso significativo nella nostra missione di sviluppare un'intelligenza artificiale che possa aumentare la produttività umana in modi senza precedenti.
GPT-5.5 è stato progettato per comprendere le intenzioni dell'utente più rapidamente e per svolgere autonomamente una parte maggiore del lavoro. Eccelle in una vasta gamma di attività cruciali, tra cui la scrittura e il debug del codice, la ricerca online, l'analisi dei dati, la creazione di documenti e fogli di calcolo, l'operatività di software e il passaggio tra diversi strumenti fino al completamento di un compito. Invece di dover gestire attentamente ogni singolo passaggio, gli utenti possono affidare a GPT-5.5 compiti complessi e multi-parte, confidando che il modello pianifichi, utilizzi gli strumenti necessari, verifichi il proprio lavoro, gestisca le ambiguità e proceda autonomamente.
I miglioramenti sono particolarmente evidenti nella codifica agentica, nell'uso del computer, nel lavoro di conoscenza e nella ricerca scientifica preliminare, aree in cui il progresso dipende dal ragionamento attraverso contesti e dall'azione nel tempo. GPT-5.5 offre questo salto di qualità nell'intelligenza senza compromettere la velocità: modelli più grandi e capaci sono spesso più lenti da servire, ma GPT-5.5 eguaglia la latenza per token di GPT-5.4 nel servizio in tempo reale, pur offrendo un livello di intelligenza molto più elevato. Utilizza anche significativamente meno token per completare gli stessi compiti di Codex, rendendolo più efficiente oltre che più capace.
Stiamo rilasciando GPT-5.5 con il nostro set più robusto di salvaguardie finora, progettato per ridurre l'uso improprio pur preservando l'accesso per lavori benefici. Abbiamo valutato questo modello attraverso la nostra suite completa di framework di sicurezza e preparazione, abbiamo lavorato con redteamers interni ed esterni, abbiamo aggiunto test mirati per capacità avanzate di cybersecurity e biologia e abbiamo raccolto feedback su casi d'uso reali da quasi 200 partner di accesso anticipato di fiducia prima del rilascio.
Oggi, GPT-5.5 è in fase di lancio per gli utenti Plus, Pro, Business ed Enterprise in ChatGPT e Codex, e GPT-5.5 Pro è in fase di lancio per gli utenti Pro, Business ed Enterprise in ChatGPT. Le implementazioni API richiedono salvaguardie diverse e stiamo lavorando a stretto contatto con partner e clienti sui requisiti di sicurezza per servirlo su larga scala. Porteremo GPT-5.5 e GPT-5.5 Pro all'API molto presto.
L'avanzamento dell'intelligenza agentica
Le prestazioni di GPT-5.5 sono dimostrate da un confronto dettagliato con i modelli precedenti e con i concorrenti più accreditati su vari benchmark. Questi dati evidenziano la leadership del nuovo modello in diverse categorie chiave:
| GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | -- | -- | 69.4% | 68.5% |
| Expert-SWE (Interno) | 73.1% | 68.5% | -- | -- | -- | -- |
| GDPval (vittorie o pareggi) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | -- | -- | 78.0% | - |
| Toolathlon | 55.6% | 54.6% | -- | -- | -- | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | -- | -- | 73.1% | - |
Un'infrastruttura globale per l'IA agentica
OpenAI sta costruendo l'infrastruttura globale per l'IA agentica, rendendo possibile per persone e aziende di tutto il mondo svolgere il lavoro con l'IA. Nell'ultimo anno, abbiamo visto l'IA accelerare drasticamente l'ingegneria del software. Con GPT-5.5 in Codex e ChatGPT, la stessa trasformazione sta iniziando a estendersi alla ricerca scientifica e al più ampio lavoro che le persone svolgono sui computer.
In tutti questi domini, GPT-5.5 non è solo più intelligente; è più efficiente nel modo in cui risolve i problemi, raggiungendo spesso output di qualità superiore con meno token e meno tentativi. Sull'indice di codifica di Artificial Analysis, GPT-5.5 offre un'intelligenza all'avanguardia a metà del costo dei modelli di codifica di frontiera concorrenti.
GPT-5.5: leader nella codifica agentica
GPT-5.5 è il nostro modello di codifica agentica più potente fino ad oggi. Su Terminal-Bench 2.0, che testa flussi di lavoro complessi della riga di comando che richiedono pianificazione, iterazione e coordinamento degli strumenti, raggiunge una precisione all'avanguardia dell'82.7%. Su SWE-Bench Pro, che valuta la risoluzione di problemi GitHub nel mondo reale, raggiunge il 58.6%, risolvendo più compiti end-to-end in un singolo passaggio rispetto ai modelli precedenti. Su Expert-SWE, la nostra valutazione di frontiera interna per compiti di codifica a lungo termine con un tempo medio di completamento umano stimato di 20 ore, GPT-5.5 supera anche GPT-5.4.
In tutte e tre le valutazioni, GPT-5.5 migliora i punteggi di GPT-5.4 pur utilizzando meno token. Le capacità di codifica del modello si manifestano in modo particolarmente chiaro in Codex, dove può affrontare lavori di ingegneria che vanno dall'implementazione e refactoring al debugging, testing e validazione. I primi test suggeriscono che GPT-5.5 è migliore nei comportamenti da cui dipende il vero lavoro di ingegneria, come mantenere il contesto su sistemi di grandi dimensioni, ragionare attraverso guasti ambigui, verificare le ipotesi con gli strumenti e applicare le modifiche alla codebase circostante.
Un esempio eloquente delle capacità di GPT-5.5 nel campo della codifica avanzata emerge da un prompt specifico. Il prompt richiede la creazione di una nuova applicazione utilizzando WebGL e Vite, basata su dati reali della missione Artemis II, con attenzione alla rappresentazione di pianeti e traiettorie di volo, interattività con il rendering 3D e meccaniche orbitali realistiche. La traiettoria renderizzata utilizza dati vettoriali NASA/JPL Horizons per Orion, la luna e il sole, con scalatura di visualizzazione applicata per la leggibilità. Questo tipo di compito dimostra la capacità del modello di tradurre un'esigenza complessa e dettagliata in un'applicazione funzionale e visivamente accurata.
Oltre ai benchmark, i primi tester hanno affermato che GPT-5.5 mostra una capacità più forte di comprendere la forma di un sistema: perché qualcosa sta fallendo, dove deve essere implementata la correzione e cos'altro nella codebase ne sarebbe influenzato.
Testimonianze e impatto sul lavoro ingegneristico
Dan Shipper, fondatore e CEO di Every, ha descritto GPT-5.5 come “il primo modello di codifica che ho usato che ha una seria chiarezza concettuale”. Dopo aver lanciato un'app, ha trascorso giorni a eseguire il debug di un problema post-lancio prima di chiamare uno dei suoi migliori ingegneri per riscrivere parte del sistema. Per testare GPT-5.5, ha effettivamente riavvolto l'orologio: il modello poteva guardare lo stato interrotto e produrre lo stesso tipo di riscrittura che l'ingegnere alla fine aveva deciso? GPT-5.4 non poteva. GPT-5.5 sì.
Pietro Schirano, CEO di MagicPath, ha riscontrato un cambiamento di passo simile quando GPT-5.5 ha unito un branch con centinaia di modifiche frontend e di refactoring in un branch principale che era anch'esso cambiato sostanzialmente, risolvendo il lavoro in un unico colpo in circa 20 minuti.
Gli ingegneri senior che hanno testato il modello hanno affermato che GPT-5.5 era notevolmente più forte di GPT-5.4 e Claude Opus 4.7 in termini di ragionamento e autonomia, individuando i problemi in anticipo e prevedendo le esigenze di test e revisione senza prompt espliciti. In un caso, un ingegnere gli ha chiesto di riarchitettare un sistema di commenti in un editor markdown collaborativo ed è tornato a uno stack di 12 diff quasi completo. Altri hanno affermato di aver avuto bisogno di una correzione di implementazione sorprendentemente minima e di sentirsi più fiduciosi nei piani di GPT-5.5 rispetto a GPT-5.4.
Un ingegnere di NVIDIA che aveva accesso anticipato al modello è arrivato a dire: "Perdere l'accesso a GPT-5.5 è come se mi fosse stato amputato un arto".
“I costruttori vogliono risultati migliori, non un'interazione infinita. Con GPT-5.5, i compiti che in precedenza richiedevano più tentativi come i flussi di autenticazione, la sincronizzazione in tempo reale e le modifiche multi-file hanno iniziato ad andare a buon fine al primo tentativo. Le richieste più difficili sono state risolte più pulite, in meno passaggi, con meno avanti e indietro. È allora che costruire smette di sembrare un lavoro e inizia a sembrare magia.”
— Fabian Hedin, CTO & Co-Founder di Lovable
Applicazioni nel lavoro quotidiano e l'uso del computer
Le stesse qualità che rendono GPT-5.5 eccellente nella codifica lo rendono potente anche per il lavoro quotidiano al computer. Poiché il modello è migliore nella comprensione dell'intento, può muoversi più naturalmente attraverso il ciclo completo del lavoro di conoscenza: trovare informazioni, capire cosa è importante, usare strumenti, controllare l'output e trasformare il materiale grezzo in qualcosa di utile.
In Codex, GPT-5.5 è migliore di GPT-5.4 nella generazione di documenti, fogli di calcolo e presentazioni. Gli alpha tester hanno affermato che ha superato i modelli precedenti in lavori come la ricerca operativa, la modellazione di fogli di calcolo e la trasformazione di input aziendali disordinati in piani. Quando combinato con le capacità di utilizzo del computer di Codex, GPT-5.5 ci avvicina alla sensazione che il modello possa effettivamente utilizzare il computer con te: vedere cosa c'è sullo schermo, cliccare, digitare, navigare nelle interfacce e muoversi tra gli strumenti con precisione.
I team di OpenAI stanno già utilizzando queste capacità nei flussi di lavoro reali. Oggi, più dell'85% dell'azienda utilizza Codex ogni settimana in funzioni che includono ingegneria del software, finanza, comunicazioni, marketing, data sci