Gradium lancia stt-translate e s2s-translate, modelli di traduzione vocale in tempo reale che superano gpt-realtime-translate in precisione e latenza
Gradium ha lanciato due modelli di traduzione vocale in tempo reale chiamati stt-translate e s2s-translate, che operano in parallelo in cinque lingue (Inglese, Francese, Tedesco, Spagnolo, Portoghese) e coprono 20 coppie linguistiche. Gradium afferma una maggiore precisione rispetto a gpt-realtime-translate e gemini-3.5-live-translate in termini di latenza e di metriche di qualità, grazie al framework Hibiki-Zero e all'apprendimento rinforzato.
Le metriche utilizzate per valutare la qualità della traduzione sono BLEU e MetricX, entrambi largamente riconosciuti nel campo della valutazione automatica della traduzione. Il modello stt-translate traduce da audio a testo senza passaggi intermedi, migliorando gli standard esistenti. Il modello s2s-translate aggiunge un sistema TTS (Text-to-Speech) che consente di ricevere un audio tradotto finché l'input è ancora registrato.
stt-translate
Il modello stt-translate riceve un input vocale in una lingua e restituisce un output in forma testuale in un’altra lingua. Il modello include un insieme di lingue: Inglese (EN), Francese (FR), Tedesco (DE), Spagnolo (ES) e Portoghese (PT). Ci sono 20 coppie di lingue disponibili, per una vasta adattabilità all’interazione internazionale in tempo reale.
Caratteristiche rilevanti include una procedura di traduzione in un unico passo: il modello combina trascrizione e traduzione in un'unica operazione, riducendo significativamente il tempo totale di elaborazione e aumentando l’accuratezza.
s2s-translate
Il modello s2s-translate traduce da audio in una lingua a audio in un’altra lingua, offrendo un’esperienza end-to-end. Essendo integrato con stt-translate e un modello TTS di Gradium, restituisce entrambi audio e trascrizione in output simultaneamente, con una riduzione notevole del lavoro di integrazione necessario per il funzionamento tradizionale.
I file audio in input richiedono un formato PCM (Pulse Coded Modulation) a 24kHz, 16-bit. I file audio in output sono a 48kHz, 16-bit, disponibili nello stesso formato PCM, come pure WAV, Opus, mu-law, o A-law. Sono supportati formati moderni con alta fedeltà.
Qualità e Test
Gradium utilizza due metriche principali per valutare la sua traduzione: il BLEU e il MetricX. Il BLEU misura l'attendibilità lemmatica della traduzione mentre MetricX misura la correttezza semantica. Questo mix bilancia precisione e comprensione a livello concettuale.
In un test effettuato su un dataset interno basato su conversazioni naturali su temi comuni (lavoro, viaggi e meteorologia), Gradium supera sia gpt-realtime-translate che gemini-3.5-live-translate, migliorando l’accuratezza in BLEU e mantenendo una latenza leggermente inferiore a queste soluzioni.
Perché due modelli battono tre
La tradizionale stack vocale utilizza tre modelli separatamente inizializzati: STT (Speech-to-Text), TTT (Text-to-Text) e TTS (Text-to-Speech), con un overhead notevole. Gradium ha ridotto il percorso a due modelli: stt-translate unisce STT e TTT in un singolo modello, eliminando un modello completo e la sua latenza.
Il risultato tecnico mostra un miglioramento di latenza medio di 0.6 secondi rispetto ai modelli tradizionali, con una significativa riduzione nel tempo totale per l'elaborazione end-to-end. La traduzione di voce e scrittura avviene in tempo reale direttamente all'interno del modello.
Esempi D'uso
1. Doppiaggio in tempo reale: Tradurre i discorsi di presentatori in una lingua diversa mantenendo la voce originale.
2. Assistenti vocali multilingue: Gli agenti possono comunicare con i clienti in tempo reale tra diversi idiomi.
3. Riunioni multilinguali: Ogni partecipante riceve una traduzione istantanea del parlato e della scritta in un'interfaccia condivisa.
4. Accessibilità: Le persone sordomute possono ricevere sottotitoli istantanei in tempo reale direttamente da stt-translate.
Inserimento codice Python
Gradium fornisce una libreria Python (gradium) per integrare s2s-translate con poche righe di codice. L'esempio mostra come utilizzare una connessione WebSocket per ottenere audio e trascrizione simultaneamente da un file.
Il codice esegue:
- Lettura e invio di dati da un file in formato PCM
- Ricezione e stampa istantanea dei risultati in testo e audio
- Utilizzo di async/await per gestire in parallelo l'invio e la ricezione
wss://api.gradium.ai/api/speech/s2s . Forze e Deboli
Punti forti:
- Traduzione e sintesi in un singolo passo, riducendo la latenza
- Prestazioni superiori in BLEU e MetricX rispetto ai competitor
- Controllo vocale in uscita con clonazione
- Semplificazione dell'integrazione tramite una singola chiamata WebSocket
Limiti:
- Gli sviluppatori debbono configurare i modelli e verificare la copertura linguistica
- L'assenza di specifiche per il numero di lingue supportata in gemini e gpt rispetto a Gradium
Potenziale futuro
Con l'aumento dell'uso su Internet, i modelli stt-translate e s2s-translate sembrano essere in grado di supportare nuovi ambiti tecnologici, come l'assistente vocale in tempo reale, gli strumenti di accessibilità e la localizzazione di contenuti. La flessibilità e la velocità dei sistemi a bassa latenza renderà i modelli più accessibili a livello aziendale e adatto ad un largo