Presentazione di GPT-5.4 mini e nano
OpenAI ha annunciato oggi il lancio di GPT-5.4 mini e GPT-5.4 nano, i suoi modelli più piccoli ma al contempo estremamente capaci. Questi nuovi modelli integrano molte delle eccellenti capacità di GPT-5.4, ma sono stati specificamente progettati per essere più veloci ed efficienti, rendendoli ideali per gestire carichi di lavoro ad alto volume dove la rapidità di esecuzione è cruciale. Questa introduzione, avvenuta il 17 marzo 2026, segna un passo significativo nell'offerta di soluzioni AI che bilanciano potenza computazionale con efficienza operativa.
Il modello GPT-5.4 mini rappresenta un notevole miglioramento rispetto al suo predecessore, GPT-5 mini. Le sue prestazioni sono state significativamente potenziate in aree chiave quali la programmazione, il ragionamento logico, la comprensione multimodale e l'uso di strumenti, operando oltre due volte più velocemente. È degno di nota come GPT-5.4 mini si avvicini alle prestazioni del modello più grande e potente, GPT-5.4, in diverse valutazioni comparative, inclusi benchmark impegnativi come SWE-Bench Pro e OSWorld-Verified. Ciò lo rende una scelta eccellente per gli sviluppatori che cercano un equilibrio tra prestazioni elevate e requisiti di risorse contenuti.
Dall'altro lato, GPT-5.4 nano si posiziona come la versione più piccola ed economica della serie GPT-5.4, pensata per compiti dove la velocità e il costo sono i fattori predominanti. Anche questo modello costituisce un significativo aggiornamento rispetto a GPT-5 nano, offrendo maggiori capacità pur mantenendo un profilo di costo estremamente competitivo. OpenAI lo raccomanda in particolare per applicazioni quali la classificazione di dati, l'estrazione di informazioni specifiche, il ranking e per supportare subagenti di coding che gestiscono compiti ausiliari più semplici e meno complessi.
Questi modelli sono stati concepiti pensando a carichi di lavoro in cui la latenza influisce direttamente sull'esperienza del prodotto. Esempi includono assistenti alla programmazione che devono rispondere in modo immediato e fluido, subagenti che completano rapidamente compiti di supporto, sistemi di interazione con il computer capaci di acquisire e interpretare schermate complesse in tempo reale, e applicazioni multimodali in grado di ragionare su immagini con minima dilazione. In contesti come questi, la scelta del modello ottimale spesso non ricade sul più grande, ma su quello che può rispondere con prontezza, utilizzare gli strumenti in modo affidabile e, nondimeno, mantenere un'elevata efficacia anche su compiti professionali complessi.
Per illustrare le capacità di questi nuovi modelli, ecco una panoramica delle loro prestazioni su benchmark selezionati:
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Pubblico) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
¹ Il più alto livello di sforzo di ragionamento disponibile per GPT-5 mini è 'high'.
Molti clienti hanno già avuto modo di testare GPT-5.4 mini e nano nei loro flussi di lavoro, esprimendo pareri estremamente positivi. Tra le aziende che hanno sperimentato queste nuove capacità figurano nomi noti come Hebbia, CodeRabbit, Mercor, GitHub, Rox, Notion, Whoop e Perplexity.
"GPT-5.4 mini offre prestazioni end-to-end robuste per un modello di questa categoria. Nelle nostre valutazioni ha eguagliato o superato i modelli concorrenti su diversi compiti di output e di richiamo delle citazioni a un costo decisamente inferiore. Ha anche raggiunto tassi di superamento end-to-end più elevati e una più forte attribuzione della fonte rispetto al modello più grande GPT-5.4."
— Aabhas Sharma, CTO di Hebbia
Coding
I modelli GPT-5.4 mini e nano si rivelano particolarmente efficaci nei flussi di lavoro di programmazione che traggono grande beneficio da un'iterazione rapida. Questi modelli sono in grado di gestire modifiche mirate, navigazione all'interno di codebase estesi, generazione di interfacce front-end e cicli di debugging con una latenza estremamente bassa. Questa caratteristica li rende una soluzione ideale per compiti di coding che richiedono di essere completati a velocità elevate e con costi contenuti, offrendo un'esperienza di sviluppo più fluida e produttiva.
Nelle valutazioni di benchmark, GPT-5.4 mini ha dimostrato di superare costantemente GPT-5 mini, mantenendo latenze simili e avvicinandosi ai tassi di superamento di GPT-5.4, ma operando a una velocità decisamente superiore. Questo si traduce in uno dei più vantaggiosi compromessi tra prestazioni e latenza disponibili per i flussi di lavoro di programmazione, permettendo agli sviluppatori di ottenere risultati eccellenti senza sacrificare la reattività.
È importante notare che la stima della latenza viene calcolata analizzando il comportamento di produzione dei nostri modelli e simulando tale comportamento offline. Questa stima di latenza tiene conto della durata delle chiamate agli strumenti (tempo di esecuzione del codice), dei token campionati e dei token di input. La latenza nel mondo reale può variare in modo significativo e dipende da numerosi fattori non inclusi nella nostra simulazione. Allo stesso modo, i costi sono stimati basandosi sui prezzi API di questi modelli al momento della stesura. Tali costi potrebbero subire modifiche in futuro. Gli sforzi di ragionamento sono stati valutati da 'low' a 'xhigh'.
Subagenti
GPT-5.4 mini si adatta perfettamente anche a sistemi che integrano modelli di diverse dimensioni, creando architetture flessibili e potenti. Ad esempio, all'interno di Codex, un modello più grande e potente come GPT-5.4 può assumere il ruolo di orchestratore, gestendo la pianificazione generale, la coordinazione delle operazioni e il giudizio finale. Parallelamente, può delegare compiti specifici e circoscritti a subagenti basati su GPT-5.4 mini, che eseguono queste micro-operazioni in simultanea.
Questi subagenti possono occuparsi di attività come la ricerca all'interno di una codebase, la revisione di file di grandi dimensioni o l'elaborazione di documenti di supporto. Questo approccio modulare permette di ottimizzare l'uso delle risorse, sfruttando la velocità e l'efficienza dei modelli più piccoli per le operazioni routinarie e la potenza dei modelli maggiori per le decisioni strategiche. Per approfondire il funzionamento dei subagenti in Codex, è possibile consultare la documentazione ufficiale.
Questo paradigma architetturale diventa sempre più vantaggioso man mano che i modelli più piccoli diventano più veloci e capaci. Invece di affidarsi a un unico modello per ogni tipo di operazione, gli sviluppatori possono ora costruire sistemi complessi dove i modelli più grandi definiscono la strategia e le azioni da intraprendere, mentre i modelli più piccoli eseguono rapidamente queste azioni su larga scala. In questo contesto, GPT-5.4 mini si afferma come il nostro modello mini più robusto e performante fino ad oggi, ideale per questo tipo di flussi di lavoro distribuiti e scalabili.
Uso del computer
Oltre alle sue capacità nel coding, GPT-5.4 mini eccelle anche nei compiti multimodali, con una particolare forza nelle applicazioni legate all'uso del computer. Questo modello è in grado di interpretare rapidamente screenshot di interfacce utente complesse e dense di informazioni, permettendogli di completare una varietà di attività legate all'uso del computer con una notevole rapidità. Questa capacità lo rende un asset prezioso per l'automazione e l'assistenza nell'interazione uomo-macchina.
Nelle valutazioni del benchmark OSWorld-Verified, GPT-5.4 mini si avvicina in modo significativo alle prestazioni del modello più grande GPT-5.4, superando al contempo e in modo sostanziale le performance di GPT-5 mini. Questo dimostra la sua efficacia nel comprendere contesti visivi complessi e nel tradurli in azioni concrete, aprendo nuove possibilità per applicazioni che richiedono l'interazione diretta con ambienti digitali.
Disponibilità e prezzi
Siamo lieti di annunciare che GPT-5.4 mini è disponibile a partire da oggi attraverso diverse piattaforme: nell'API di OpenAI, all'interno di Codex e tramite ChatGPT. Questa ampia disponibilità consente a un vasto pubblico di sviluppatori e utenti di beneficiare delle sue capacità avanzate.
Nell'API, GPT-5.4 mini offre un'ampia gamma di funzionalità. Supporta input sia testuali che di immagine, consentendo applicazioni multimodali flessibili. Inoltre, include la capacità di utilizzare strumenti esterni, effettuare chiamate a funzioni, eseguire ricerche web e di file, supportare l'uso del computer e integrare diverse "skills" per compiti specializzati. Il modello vanta una finestra di contesto di 400.000 token, permettendo di gestire interazioni lunghe e complesse. Per quanto riguarda i costi, GPT-5.4 mini è prezzato a $0.75 per 1 milione di token di input e $4.50 per 1 milione di token di output, rendendolo economicamente vantaggioso per applicazioni ad alto volume.
Per gli sviluppatori che operano con Codex, GPT-5.4 mini è integrato e accessibile tramite l'applicazione Codex, la CLI (Command Line Interface), l'estensione IDE e l'interfaccia web. Un vantaggio significativo è che l'uso di GPT-5.4 mini consuma solo il 30% della quota assegnata per GPT-5.4. Ciò permette agli sviluppatori di gestire rapidamente compiti di coding più semplici in Codex a circa un terzo del costo. Inoltre, Codex può delegare compiti a subagenti basati su GPT-5.4 mini, assicurando che i lavori meno intensivi dal punto di vista del ragionamento vengano eseguiti dal modello più economico, ottimizzando ulteriormente i costi e l'efficienza.
In ChatGPT, GPT-5.4 mini è accessibile agli utenti dei piani "Free" e "Go" attraverso la funzionalità "Thinking" (Pensiero), disponibile nel menu "+". Per tutti gli altri utenti, GPT-5.4 mini funge da meccanismo di fallback per il limite di frequenza ("rate limit") di GPT-5.4 Thinking, garantendo continuità del servizio anche in condizioni di elevato traffico.
Per quanto riguarda GPT-5.4 nano, questo modello è disponibile esclusivamente tramite l'API. I suoi costi sono ancora più contenuti, pari a $0.20 per 1 milione di token di input e $1.25 per 1 milione di token di output, consolidando la sua posizione come opzione più economica per compiti specifici che richiedono un'alta efficienza in termini di costo.
Per ulteriori dettagli sulle misure di sicurezza implementate in questi modelli, si prega di consultare l'appendice della System Card, disponibile sul nostro Deployment Safety Hub.
Valutazioni dettagliate dei benchmark
Per una comprensione più approfondita delle prestazioni dei modelli, di seguito sono presentate le valutazioni su specifici benchmark, suddivise per categoria di funzionalità.
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Pubblico) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Uso di strumenti (Tool-calling)
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligenza
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE con strumento | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE senza strumenti | 39.8% | 28.2% | 24.3% | 18.3% |
Multimodale / Visione / CUA (Uso assistito da computer)
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro con Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniD |
¹ Il più alto livello di sforzo di ragionamento disponibile per GPT-5 mini è 'high'.