Intelligenza vocale avanzata con nuovi modelli nell'API

OpenAI Blog 7 maggio 2026

L'intelligenza vocale sta diventando sempre più importante nell'ambito dello sviluppo di software. Grazie all'introduzione di tre nuovi modelli audio nell'API, i developer possono creare esperienze vocali più naturali e intelligenti. I modelli GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper offrono funzionalità avanzate per la traduzione in tempo reale, la trascrizione e la gestione di conversazioni complesse.

Il modello GPT-Realtime-2 è stato progettato per gestire conversazioni vocali in tempo reale, offrendo una maggiore comprensione del contesto e una capacità di ragionamento più avanzata. Questo modello può essere utilizzato per creare assistenti vocali che possano comprendere e rispondere a richieste complesse, come ad esempio la pianificazione di un menù per una cena o la gestione di una conversazione in più lingue.

Modelli audio innovativi

I tre modelli audio introdotti nell'API offrono funzionalità avanzate per la creazione di esperienze vocali più naturali e intelligenti. Il modello GPT-Realtime-2 è stato progettato per gestire conversazioni vocali in tempo reale, mentre il modello GPT-Realtime-Translate è stato progettato per la traduzione in tempo reale di lingue diverse. Il modello GPT-Realtime-Whisper è stato progettato per la trascrizione di conversazioni vocali in tempo reale.

Caratteristiche del modello GPT-Realtime-2

Il modello GPT-Realtime-2 offre una serie di funzionalità avanzate, tra cui:

Preambles: i developer possono abilitare frasi brevi prima di una risposta principale, in modo che gli utenti sappiano che l'agente sta lavorando sulla richiesta.
Chiamate parallele di strumenti e trasparenza degli strumenti: il modello può chiamare più strumenti contemporaneamente e renderli udibili con frasi come "controllo il tuo calendario" o "sto cercando informazioni adesso", aiutando gli agenti a rimanere rispondenti mentre completano le attività.
Comportamento di recupero più forte: il modello può recovering più graziosamente dicendo cose come "sto avendo difficoltà con questo adesso", invece di fallire silenziosamente o interrompere la conversazione.
Finestra di contesto più lunga: la finestra di contesto è stata aumentata da 32K a 128K per supportare sessioni più lunghe e complesse.
Comprensione del dominio più forte: il modello conserva meglio la terminologia specializzata, i nomi propri, i termini sanitari e altri vocaboli importanti in ambienti di produzione.
Tono e consegna più controllabili: il modello può regolare meglio il tono, parlare calmamente mentre risolve un problema, con empatia quando un utente è frustrato o con entusiasmo quando conferma un'azione riuscita.
Sforzo di ragionamento regolabile: i developer possono selezionare tra livelli di ragionamento minimi, bassi, medi, alti e xhigh, con basso come valore predefinito, bilanciando la latenza più bassa per interazioni semplici con un ragionamento più deliberato per richieste complesse.

Realtime translation: creare esperienze vocali multilingue

Il modello GPT-Realtime-Translate è stato progettato per la traduzione in tempo reale di lingue diverse. Questo modello può essere utilizzato per creare assistenti vocali che possano comprendere e rispondere a richieste in più lingue, come ad esempio la traduzione di conversazioni vocali in tempo reale.

Il modello GPT-Realtime-Translate può tradurre linguaggi da 70+ lingue di input in 13 lingue di output, mantenendo il ritmo del parlante. Questo modello può essere utilizzato per creare assistenti vocali che possano aiutare gli utenti a comunicare in più lingue, come ad esempio la traduzione di conversazioni vocali in tempo reale.

Esempi di utilizzo del modello GPT-Realtime-Translate

Il modello GPT-Realtime-Translate può essere utilizzato in una varietà di scenari, come ad esempio:

Traduzione di conversazioni vocali in tempo reale durante le riunioni o le conferenze.
Creazione di assistenti vocali che possano comprendere e rispondere a richieste in più lingue.
Aiuto agli utenti a comunicare in più lingue durante le interazioni vocali.

Conclusione

Leggi l'articolo originale →

← Torna alle news