OpenAI presenta gpt-realtime e aggiornamenti API Realtime per agenti vocali di produzione

OpenAI 9 aprile 2026

OpenAI Rende Disponibile l'API Realtime con gpt-realtime e Nuove Funzionalità Avanzate

Oggi segna un traguardo significativo per gli sviluppatori e le aziende che mirano a creare agenti vocali all'avanguardia. OpenAI ha annunciato la disponibilità generale dell'API Realtime, ora accessibile a tutti e arricchita da nuove funzionalità progettate per consentire la creazione di agenti vocali affidabili e pronti per la produzione. Queste innovazioni aprono nuove strade per l'interazione uomo-macchina, rendendo gli assistenti vocali più capaci grazie a un accesso ampliato a strumenti e contesto aggiuntivi.

Tra le novità più rilevanti, l'API Realtime supporta ora server MCP remoti, input di immagini e chiamate telefoniche tramite il Protocollo di Inizio Sessione (SIP). Questo significa che gli agenti possono ora interagire con un contesto visivo e integrarsi più facilmente con le infrastrutture di telecomunicazione esistenti, espandendo notevolmente la loro utilità in scenari reali.

Presentazione del Modello gpt-realtime: Intelligenza Vocale All'Avanguardia

Contestualmente al lancio generale dell'API Realtime, OpenAI introduce anche il suo modello voce-voce più avanzato fino ad oggi: `gpt-realtime`. Questo nuovo modello rappresenta un salto qualitativo significativo, mostrando notevoli miglioramenti in diverse aree critiche per lo sviluppo di agenti vocali intelligenti e reattivi.

Seguimento di istruzioni complesse: `gpt-realtime` è ora in grado di interpretare e agire su indicazioni più elaborate fornite dagli sviluppatori.
Uso preciso degli strumenti: Il modello dimostra una maggiore accuratezza nell'attivare e utilizzare strumenti esterni in modo contestualmente appropriato.
Generazione di parlato naturale ed espressivo: La qualità del parlato generato è stata migliorata per suonare più autentica e con una maggiore gamma di espressioni emotive.
Interpretazione di messaggi di sistema e prompt: Il modello comprende meglio i messaggi del sistema e i prompt degli sviluppatori, sia che si tratti di leggere script parola per parola in una chiamata di supporto, ripetere stringhe alfanumeriche o passare senza soluzione di continuità tra le lingue a metà frase.

Per arricchire ulteriormente l'esperienza vocale, sono state introdotte anche due nuove voci, Cedar e Marin, disponibili in esclusiva nell'API Realtime a partire da oggi.

Un Percorso di Sviluppo Collaborativo e Ottimizzato

Dal lancio dell'API Realtime in beta pubblica lo scorso ottobre, migliaia di sviluppatori hanno collaborato attivamente, fornendo feedback preziosi che hanno contribuito a plasmare i miglioramenti odierni. Queste ottimizzazioni sono state mirate a garantire affidabilità, bassa latenza e alta qualità, facilitando l'implementazione di agenti vocali in ambienti di produzione complessi. La filosofia alla base di questa API è distintiva: a differenza dei flussi tradizionali che concatenano più modelli (ad esempio, uno per convertire la voce in testo e un altro per il testo in voce), l'API Realtime processa e genera direttamente l'audio utilizzando un unico modello e un'unica API. Questo approccio monolitico si traduce in una drastica riduzione della latenza, una migliore preservazione delle sfumature vocali e la produzione di risposte molto più naturali ed espressive, essenziali per un'interazione fluida e coinvolgente.

gpt-realtime: Pronto per le Sfide del Mondo Reale

Il nuovo modello voce-voce, `gpt-realtime`, è stato sviluppato con un focus specifico sulle applicazioni pratiche. È stato addestrato in stretta collaborazione con i clienti, garantendo che eccellesse in compiti reali come l'assistenza clienti, l'assistenza personale e l'istruzione. Questo approccio orientato al cliente ha permesso di adattare il modello al modo in cui gli sviluppatori creano e implementano agenti vocali, rendendolo estremamente efficace in scenari reali. Le sue prestazioni sono state migliorate in termini di:

Qualità audio: Per un'esperienza d'ascolto superiore.
Intelligenza: Per una comprensione e una reazione più acute.
Seguimento delle istruzioni: Per una maggiore aderenza ai comandi e ai prompt.
Esecuzione delle funzioni: Per un'attivazione più affidabile e precisa degli strumenti.

Parlato Naturale ed Espressivo: La Chiave per una Conversazione Autentica

Una conversazione naturale è il fondamento per l'implementazione di agenti vocali efficaci nel mondo reale. I modelli devono parlare con l'intonazione, l'emozione e il ritmo di una persona per offrire un'esperienza soddisfacente e incoraggiare un dialogo continuo con gli utenti. Per raggiungere questo obiettivo, `gpt-realtime` è stato addestrato per produrre un parlato di qualità superiore, con un suono più naturale e una capacità senza precedenti di seguire istruzioni dettagliate come «parla velocemente e con professionalità» o «parla in modo empatico con un accento francese». Questa flessibilità permette agli sviluppatori di personalizzare l'agente vocale per adattarlo a un'ampia gamma di contesti e personalità.

Le Nuove Voci: Marin e Cedar

Per elevare ulteriormente l'esperienza vocale, OpenAI ha introdotto due voci completamente nuove nell'API Realtime: Marin e Cedar. Queste voci incorporano i miglioramenti più significativi nel parlato naturale, offrendo tonalità e sfumature che le rendono estremamente realistiche e coinvolgenti. Parallelamente, tutte le otto voci esistenti nell'API sono state aggiornate per beneficiare di questi stessi avanzamenti, garantendo che l'intera gamma di opzioni vocali offra una qualità superiore e un'espressività migliorata.

Sono state fornite campioni vocali per entrambe le nuove voci, evidenziando le loro qualità uniche:

Campione di voce: Marin
Campione di voce: Cedar

Intelligenza e Comprensione Potenziate

`gpt-realtime` dimostra una maggiore intelligenza e una migliore capacità di comprensione dell'audio nativo. Il modello può cogliere segnali non verbali, come le risate, cambiare lingua a metà frase e adattare il tono in base alle indicazioni fornite, come "agile e professionale" rispetto a "gentile ed empatico". Questa capacità di adattamento e comprensione profonda dell'audio lo rende estremamente versatile.

Secondo le valutazioni interne di OpenAI, il modello offre anche prestazioni più accurate nel rilevare sequenze alfanumeriche (come numeri di telefono, VIN, ecc.) in diverse lingue, inclusi spagnolo, cinese, giapponese e francese. Questa precisione multilingue è fondamentale per applicazioni globali.

Valutazione dell'Intelligenza: Big Bench Audio

Nelle valutazioni comparative, `gpt-realtime` ha dimostrato la sua superiorità. Nella valutazione Big Bench Audio, che misura la capacità di ragionamento dei modelli di linguaggio con input audio, `gpt-realtime` ha raggiunto l'82,8% di precisione, superando significativamente il precedente modello di OpenAI del dicembre 2024, che aveva ottenuto il 65,6%.

La prova comparativa Big Bench Audio è un dataset di valutazione progettato specificamente per misurare le capacità di ragionamento dei modelli di linguaggio che supportano l'input audio. Questo dataset adatta domande dal più ampio e rigoroso Big Bench Hard, noto per la sua efficacia nella valutazione del ragionamento avanzato, al dominio dell'audio, creando così un benchmark robusto per l'intelligenza vocale.

Migliorato il Seguimento delle Istruzioni: MultiChallenge

La capacità di un agente vocale di seguire istruzioni precise è fondamentale per la sua utilità. Quando si crea un'applicazione voce-voce, gli sviluppatori forniscono al modello un insieme di istruzioni su come deve comportarsi: come parlare, cosa dire in determinate situazioni e cosa fare o evitare. OpenAI ha concentrato i propri miglioramenti sulla capacità di `gpt-realtime` di seguire queste istruzioni, garantendo che anche i più piccoli prompt trasmettano più segnale al modello, portando a un'esecuzione più fedele e affidabile.

Nella valutazione audio MultiChallenge, che misura la precisione nel seguire istruzioni complesse, `gpt-realtime` ha raggiunto il 30,5%, un miglioramento significativo rispetto al modello precedente di OpenAI del dicembre 2024, che aveva ottenuto il 20,6%.

MultiChallenge valuta come i modelli di linguaggio di grandi dimensioni (LLM) gestiscono le conversazioni multi-turno con gli esseri umani. Si concentra su quattro categorie di sfide realistiche che i modelli all'avanguardia attuali ancora faticano a gestire. Queste sfide richiedono ai modelli di combinare simultaneamente il seguimento delle istruzioni, la gestione del contesto e il ragionamento in contesto. OpenAI ha convertito un sottoinsieme di domande di prova adattate all'audio, trasformandole da testo a voce, per creare una versione audio di questa valutazione.

Chiamate a Funzioni Avanzate e Affidabili

Per creare un agente vocale efficace con un modello voce-voce, è essenziale che il modello sia in grado di chiamare gli strumenti corretti al momento giusto per essere utile in produzione. OpenAI ha migliorato le chiamate a funzioni in tre aspetti cruciali:

Scelta delle funzioni pertinenti: Il modello è più abile nell'identificare quale funzione è più appropriata per una data situazione.
Chiamata al momento opportuno: Le funzioni vengono attivate esattamente quando sono necessarie, ottimizzando il flusso della conversazione.
Chiamata con gli argomenti corretti: Il modello garantisce che le funzioni vengano invocate con i parametri precisi richiesti, aumentando l'accuratezza e l'efficacia.

Questi miglioramenti si sono tradotti in una maggiore precisione complessiva. Nella valutazione audio ComplexFuncBench, che misura le prestazioni delle chiamate a funzioni, `gpt-realtime` ha ottenuto il 66,5%, superando il 49,7% del modello precedente di OpenAI del dicembre 2024.

Chiamate a Funzioni Asincrone

Un'altra innovazione significativa riguarda le chiamate a funzioni asincrone. Questo significa che le chiamate a funzioni di lunga durata non interromperanno più il flusso di una sessione. Il modello può mantenere una conversazione fluida e ininterrotta mentre attende i risultati delle funzioni. Questa funzionalità è disponibile in modo nativo in `gpt-realtime`, il che significa che gli sviluppatori non devono apportare alcuna modifica al loro codice esistente per sfruttare questo vantaggio.

ComplexFuncBench è una valutazione che misura l'efficacia con cui i modelli gestiscono compiti complessi di chiamate a funzioni. Valuta le prestazioni in situazioni che includono chiamate in più passaggi, ragionamento su vincoli o parametri impliciti e gestione di input molto lunghi. OpenAI ha convertito in voce i prompt originali di testo per creare questa valutazione specifica per i suoi modelli voce-voce.

Nuove Capacità dell'API Realtime

Supporto per Server MCP Remoti

L'API Realtime ora offre la compatibilità con i server MCP (Media Control Protocol) remoti, semplificando notevolmente l'espansione delle funzionalità degli agenti vocali. È possibile abilitare il supporto MCP in una sessione dell'API Realtime semplicemente passando l'URL di un server MCP remoto nella configurazione della sessione. Una volta connessa, l'API gestisce automaticamente le chiamate degli strumenti, eliminando la necessità di configurare integrazioni manualmente.

Questa configurazione rende estremamente facile ampliare il proprio agente con nuove funzioni: basta configurare la sessione con un altro server MCP e gli strumenti associati saranno immediatamente disponibili. Per maggiori informazioni su come configurare MCP con l'API Realtime, è disponibile questa guida dettagliata.

Integrazione degli Input di Immagini

Con il supporto degli input di immagini ora integrato in `gpt-realtime`, gli sviluppatori possono aggiungere immagini, foto e schermate insieme all'audio o al testo in una sessione dell'API Realtime. Questa capacità rivoluzionaria permette al modello di basare la conversazione su ciò che l'utente sta vedendo, aprendo la porta a nuove interazioni. Ad esempio, gli utenti possono porre domande come «cosa vedi?» o «leggi il testo di questa schermata», e l'agente può rispondere con informazioni contestualmente pertinenti basate sull'immagine.

Il sistema non tratta un'immagine come se fosse una trasmissione video in diretta continua, ma la integra piuttosto come se si aggiungesse una foto statica alla conversazione. L'applicazione ha la libertà di decidere quali immagini condividere con il modello e in quale momento, garantendo un controllo preciso e mirato sull'interazione visiva.

Leggi l'articolo originale →

← Torna alle news