Home Fondamenti Storia dell'AI Reti Neurali Backpropagation Architetture Token Modelli AI Case Studies Tecniche RAG RAG Avanzato GraphRAG MCP Orchestrazione LangChain LangGraph Prompt Engineering Usare l'AI ChipsBot News

Gradium lancia stt-translate e s2s-translate, modelli di traduzione vocale in tempo reale che superano gpt-realtime-translate in precisione e latenza

MarkTechPost 25 giugno 2026

Gradium ha lanciato due modelli di traduzione vocale in tempo reale chiamati stt-translate e s2s-translate, che operano in parallelo in cinque lingue (Inglese, Francese, Tedesco, Spagnolo, Portoghese) e coprono 20 coppie linguistiche. Gradium afferma una maggiore precisione rispetto a gpt-realtime-translate e gemini-3.5-live-translate in termini di latenza e di metriche di qualità, grazie al framework Hibiki-Zero e all'apprendimento rinforzato.

Le metriche utilizzate per valutare la qualità della traduzione sono BLEU e MetricX, entrambi largamente riconosciuti nel campo della valutazione automatica della traduzione. Il modello stt-translate traduce da audio a testo senza passaggi intermedi, migliorando gli standard esistenti. Il modello s2s-translate aggiunge un sistema TTS (Text-to-Speech) che consente di ricevere un audio tradotto finché l'input è ancora registrato.

stt-translate

Il modello stt-translate riceve un input vocale in una lingua e restituisce un output in forma testuale in un’altra lingua. Il modello include un insieme di lingue: Inglese (EN), Francese (FR), Tedesco (DE), Spagnolo (ES) e Portoghese (PT). Ci sono 20 coppie di lingue disponibili, per una vasta adattabilità all’interazione internazionale in tempo reale.

Caratteristiche rilevanti include una procedura di traduzione in un unico passo: il modello combina trascrizione e traduzione in un'unica operazione, riducendo significativamente il tempo totale di elaborazione e aumentando l’accuratezza.

s2s-translate

Il modello s2s-translate traduce da audio in una lingua a audio in un’altra lingua, offrendo un’esperienza end-to-end. Essendo integrato con stt-translate e un modello TTS di Gradium, restituisce entrambi audio e trascrizione in output simultaneamente, con una riduzione notevole del lavoro di integrazione necessario per il funzionamento tradizionale.

I file audio in input richiedono un formato PCM (Pulse Coded Modulation) a 24kHz, 16-bit. I file audio in output sono a 48kHz, 16-bit, disponibili nello stesso formato PCM, come pure WAV, Opus, mu-law, o A-law. Sono supportati formati moderni con alta fedeltà.

Qualità e Test

Gradium utilizza due metriche principali per valutare la sua traduzione: il BLEU e il MetricX. Il BLEU misura l'attendibilità lemmatica della traduzione mentre MetricX misura la correttezza semantica. Questo mix bilancia precisione e comprensione a livello concettuale.

In un test effettuato su un dataset interno basato su conversazioni naturali su temi comuni (lavoro, viaggi e meteorologia), Gradium supera sia gpt-realtime-translate che gemini-3.5-live-translate, migliorando l’accuratezza in BLEU e mantenendo una latenza leggermente inferiore a queste soluzioni.

Perché due modelli battono tre

La tradizionale stack vocale utilizza tre modelli separatamente inizializzati: STT (Speech-to-Text), TTT (Text-to-Text) e TTS (Text-to-Speech), con un overhead notevole. Gradium ha ridotto il percorso a due modelli: stt-translate unisce STT e TTT in un singolo modello, eliminando un modello completo e la sua latenza.

Il risultato tecnico mostra un miglioramento di latenza medio di 0.6 secondi rispetto ai modelli tradizionali, con una significativa riduzione nel tempo totale per l'elaborazione end-to-end. La traduzione di voce e scrittura avviene in tempo reale direttamente all'interno del modello.

Esempi D'uso

1. Doppiaggio in tempo reale: Tradurre i discorsi di presentatori in una lingua diversa mantenendo la voce originale.

2. Assistenti vocali multilingue: Gli agenti possono comunicare con i clienti in tempo reale tra diversi idiomi.

3. Riunioni multilinguali: Ogni partecipante riceve una traduzione istantanea del parlato e della scritta in un'interfaccia condivisa.

4. Accessibilità: Le persone sordomute possono ricevere sottotitoli istantanei in tempo reale direttamente da stt-translate.

Inserimento codice Python

Gradium fornisce una libreria Python (gradium) per integrare s2s-translate con poche righe di codice. L'esempio mostra come utilizzare una connessione WebSocket per ottenere audio e trascrizione simultaneamente da un file.

Il codice esegue:

    • Lettura e invio di dati da un file in formato PCM
    • Ricezione e stampa istantanea dei risultati in testo e audio
    • Utilizzo di async/await per gestire in parallelo l'invio e la ricezione
La libreria supporta tre metodi principali: s2srealtime per input streaming, s2sstream per dati finiti, e s2s per file registrati. Tutti comunicano via WebSocket su wss://api.gradium.ai/api/speech/s2s .

Forze e Deboli

Punti forti:

    • Traduzione e sintesi in un singolo passo, riducendo la latenza
    • Prestazioni superiori in BLEU e MetricX rispetto ai competitor
    • Controllo vocale in uscita con clonazione
    • Semplificazione dell'integrazione tramite una singola chiamata WebSocket

Limiti:

    • Gli sviluppatori debbono configurare i modelli e verificare la copertura linguistica
    • L'assenza di specifiche per il numero di lingue supportata in gemini e gpt rispetto a Gradium

Potenziale futuro

Con l'aumento dell'uso su Internet, i modelli stt-translate e s2s-translate sembrano essere in grado di supportare nuovi ambiti tecnologici, come l'assistente vocale in tempo reale, gli strumenti di accessibilità e la localizzazione di contenuti. La flessibilità e la velocità dei sistemi a bassa latenza renderà i modelli più accessibili a livello aziendale e adatto ad un largo

Leggi l'articolo originale →
← Torna alle news