Gradium lancia stt-translate e s2s-translate, modelli di traduzione vocale in tempo reale che superano gpt-realtime-translate in precisione e latenza

MarkTechPost 25 giugno 2026

Gradium ha lanciato due modelli di traduzione vocale in tempo reale chiamati stt-translate e s2s-translate, che operano in parallelo in cinque lingue (Inglese, Francese, Tedesco, Spagnolo, Portoghese) e coprono 20 coppie linguistiche. Gradium afferma una maggiore precisione rispetto a gpt-realtime-translate e gemini-3.5-live-translate in termini di latenza e di metriche di qualità, grazie al framework Hibiki-Zero e all'apprendimento rinforzato.

Le metriche utilizzate per valutare la qualità della traduzione sono BLEU e MetricX, entrambi largamente riconosciuti nel campo della valutazione automatica della traduzione. Il modello stt-translate traduce da audio a testo senza passaggi intermedi, migliorando gli standard esistenti. Il modello s2s-translate aggiunge un sistema TTS (Text-to-Speech) che consente di ricevere un audio tradotto finché l'input è ancora registrato.

stt-translate

Il modello stt-translate riceve un input vocale in una lingua e restituisce un output in forma testuale in un’altra lingua. Il modello include un insieme di lingue: Inglese (EN), Francese (FR), Tedesco (DE), Spagnolo (ES) e Portoghese (PT). Ci sono 20 coppie di lingue disponibili, per una vasta adattabilità all’interazione internazionale in tempo reale.

Caratteristiche rilevanti include una procedura di traduzione in un unico passo: il modello combina trascrizione e traduzione in un'unica operazione, riducendo significativamente il tempo totale di elaborazione e aumentando l’accuratezza.

s2s-translate

Il modello s2s-translate traduce da audio in una lingua a audio in un’altra lingua, offrendo un’esperienza end-to-end. Essendo integrato con stt-translate e un modello TTS di Gradium, restituisce entrambi audio e trascrizione in output simultaneamente, con una riduzione notevole del lavoro di integrazione necessario per il funzionamento tradizionale.

I file audio in input richiedono un formato PCM (Pulse Coded Modulation) a 24kHz, 16-bit. I file audio in output sono a 48kHz, 16-bit, disponibili nello stesso formato PCM, come pure WAV, Opus, mu-law, o A-law. Sono supportati formati moderni con alta fedeltà.

Qualità e Test

Gradium utilizza due metriche principali per valutare la sua traduzione: il BLEU e il MetricX. Il BLEU misura l'attendibilità lemmatica della traduzione mentre MetricX misura la correttezza semantica. Questo mix bilancia precisione e comprensione a livello concettuale.

In un test effettuato su un dataset interno basato su conversazioni naturali su temi comuni (lavoro, viaggi e meteorologia), Gradium supera sia gpt-realtime-translate che gemini-3.5-live-translate, migliorando l’accuratezza in BLEU e mantenendo una latenza leggermente inferiore a queste soluzioni.

Perché due modelli battono tre

La tradizionale stack vocale utilizza tre modelli separatamente inizializzati: STT (Speech-to-Text), TTT (Text-to-Text) e TTS (Text-to-Speech), con un overhead notevole. Gradium ha ridotto il percorso a due modelli: stt-translate unisce STT e TTT in un singolo modello, eliminando un modello completo e la sua latenza.

Il risultato tecnico mostra un miglioramento di latenza medio di 0.6 secondi rispetto ai modelli tradizionali, con una significativa riduzione nel tempo totale per l'elaborazione end-to-end. La traduzione di voce e scrittura avviene in tempo reale direttamente all'interno del modello.

Esempi D'uso

1. Doppiaggio in tempo reale: Tradurre i discorsi di presentatori in una lingua diversa mantenendo la voce originale.

2. Assistenti vocali multilingue: Gli agenti possono comunicare con i clienti in tempo reale tra diversi idiomi.

3. Riunioni multilinguali: Ogni partecipante riceve una traduzione istantanea del parlato e della scritta in un'interfaccia condivisa.

4. Accessibilità: Le persone sordomute possono ricevere sottotitoli istantanei in tempo reale direttamente da stt-translate.

Inserimento codice Python

Gradium fornisce una libreria Python (gradium) per integrare s2s-translate con poche righe di codice. L'esempio mostra come utilizzare una connessione WebSocket per ottenere audio e trascrizione simultaneamente da un file.

Il codice esegue:

Lettura e invio di dati da un file in formato PCM
Ricezione e stampa istantanea dei risultati in testo e audio
Utilizzo di async/await per gestire in parallelo l'invio e la ricezione

La libreria supporta tre metodi principali: s2srealtime per input streaming, s2sstream per dati finiti, e s2s per file registrati. Tutti comunicano via WebSocket su wss://api.gradium.ai/api/speech/s2s .

Forze e Deboli

Punti forti:

Traduzione e sintesi in un singolo passo, riducendo la latenza
Prestazioni superiori in BLEU e MetricX rispetto ai competitor
Controllo vocale in uscita con clonazione
Semplificazione dell'integrazione tramite una singola chiamata WebSocket

Limiti:

Gli sviluppatori debbono configurare i modelli e verificare la copertura linguistica
L'assenza di specifiche per il numero di lingue supportata in gemini e gpt rispetto a Gradium

Potenziale futuro

Con l'aumento dell'uso su Internet, i modelli stt-translate e s2s-translate sembrano essere in grado di supportare nuovi ambiti tecnologici, come l'assistente vocale in tempo reale, gli strumenti di accessibilità e la localizzazione di contenuti. La flessibilità e la velocità dei sistemi a bassa latenza renderà i modelli più accessibili a livello aziendale e adatto ad un largo

Leggi l'articolo originale →

← Torna alle news