Home Fondamenti Storia dell'AI Reti Neurali Backpropagation Architetture Token Modelli AI Case Studies Tecniche RAG RAG Avanzato GraphRAG MCP Orchestrazione LangChain LangGraph Prompt Engineering Usare l'AI ChipsBot News

Intelligenza vocale avanzata con nuovi modelli nell'API

OpenAI Blog 7 maggio 2026

L'intelligenza vocale sta diventando sempre più importante nell'ambito dello sviluppo di software. Grazie all'introduzione di tre nuovi modelli audio nell'API, i developer possono creare esperienze vocali più naturali e intelligenti. I modelli GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper offrono funzionalità avanzate per la traduzione in tempo reale, la trascrizione e la gestione di conversazioni complesse.

Il modello GPT-Realtime-2 è stato progettato per gestire conversazioni vocali in tempo reale, offrendo una maggiore comprensione del contesto e una capacità di ragionamento più avanzata. Questo modello può essere utilizzato per creare assistenti vocali che possano comprendere e rispondere a richieste complesse, come ad esempio la pianificazione di un menù per una cena o la gestione di una conversazione in più lingue.

Modelli audio innovativi

I tre modelli audio introdotti nell'API offrono funzionalità avanzate per la creazione di esperienze vocali più naturali e intelligenti. Il modello GPT-Realtime-2 è stato progettato per gestire conversazioni vocali in tempo reale, mentre il modello GPT-Realtime-Translate è stato progettato per la traduzione in tempo reale di lingue diverse. Il modello GPT-Realtime-Whisper è stato progettato per la trascrizione di conversazioni vocali in tempo reale.

Caratteristiche del modello GPT-Realtime-2

Il modello GPT-Realtime-2 offre una serie di funzionalità avanzate, tra cui:

    • Preambles: i developer possono abilitare frasi brevi prima di una risposta principale, in modo che gli utenti sappiano che l'agente sta lavorando sulla richiesta.
    • Chiamate parallele di strumenti e trasparenza degli strumenti: il modello può chiamare più strumenti contemporaneamente e renderli udibili con frasi come "controllo il tuo calendario" o "sto cercando informazioni adesso", aiutando gli agenti a rimanere rispondenti mentre completano le attività.
    • Comportamento di recupero più forte: il modello può recovering più graziosamente dicendo cose come "sto avendo difficoltà con questo adesso", invece di fallire silenziosamente o interrompere la conversazione.
    • Finestra di contesto più lunga: la finestra di contesto è stata aumentata da 32K a 128K per supportare sessioni più lunghe e complesse.
    • Comprensione del dominio più forte: il modello conserva meglio la terminologia specializzata, i nomi propri, i termini sanitari e altri vocaboli importanti in ambienti di produzione.
    • Tono e consegna più controllabili: il modello può regolare meglio il tono, parlare calmamente mentre risolve un problema, con empatia quando un utente è frustrato o con entusiasmo quando conferma un'azione riuscita.
    • Sforzo di ragionamento regolabile: i developer possono selezionare tra livelli di ragionamento minimi, bassi, medi, alti e xhigh, con basso come valore predefinito, bilanciando la latenza più bassa per interazioni semplici con un ragionamento più deliberato per richieste complesse.

Realtime translation: creare esperienze vocali multilingue

Il modello GPT-Realtime-Translate è stato progettato per la traduzione in tempo reale di lingue diverse. Questo modello può essere utilizzato per creare assistenti vocali che possano comprendere e rispondere a richieste in più lingue, come ad esempio la traduzione di conversazioni vocali in tempo reale.

Il modello GPT-Realtime-Translate può tradurre linguaggi da 70+ lingue di input in 13 lingue di output, mantenendo il ritmo del parlante. Questo modello può essere utilizzato per creare assistenti vocali che possano aiutare gli utenti a comunicare in più lingue, come ad esempio la traduzione di conversazioni vocali in tempo reale.

Esempi di utilizzo del modello GPT-Realtime-Translate

Il modello GPT-Realtime-Translate può essere utilizzato in una varietà di scenari, come ad esempio:

    • Traduzione di conversazioni vocali in tempo reale durante le riunioni o le conferenze.
    • Creazione di assistenti vocali che possano comprendere e rispondere a richieste in più lingue.
    • Aiuto agli utenti a comunicare in più lingue durante le interazioni vocali.

Conclusione

I tre modelli audio introdotti nell'API offrono funzionalità avanzate per la creazione di esperienze vocali più naturali e intelligenti. Il modello GPT-Realtime-2 è stato progettato per gestire conversazioni vocali in tempo reale, mentre il modello GPT-Realtime-Translate è stato progettato per la traduzione in tempo reale di lingue diverse. Il modello GPT-Realtime-Whisper è stato progettato per la trascrizione di conversazioni vocali in tempo reale. Questi modelli possono aiutare a creare assistenti vocali più efficaci e a migliorare l'esperienza utente.

Leggi l'articolo originale →
← Torna alle news