StepFun Lancia StepAudio 2.5 Realtime: Un Modello Vocale End-to-End con RLHF e Comprensione Paralinguistica

MarkTechPost 24 maggio 2026

StepFun, laboratorio di intelligenza artificiale con sede a Shanghai, ha recentemente rilasciato StepAudio 2.5 Realtime, un modello linguistico vocale end-to-end in grado di operare in tempo reale. Il modello presenta caratteristiche di personalizzazione avanzate e si colloca come un passo avanti nel campo della sintesi vocale, combinando comprensione audio e generazione tramite un'unica architettura integrata.

Tecnologia e Architettura

StepAudio 2.5 Realtime rappresenta una svolta rispetto ai sistemi tradizionali basati su pipeline, che trattano la riconoscimento vocale, il ragionamento e la sintesi come passaggi separati. Questo modello, invece, riceve in ingresso l’audio e fornisce in uscita l’audio, tutto in uno, con un’unica struttura end-to-end. Il modello supporta completamente l’inglese e il cinese, mantenendo un’alta flessibilità in termini di linguaggi supportati.

Differenze con la Pipeline Tradizionale

Le differenze rispetto ai modelli pipeline sono sostanziali: il modello di StepFun non necessita di dividere la comprensione e la generazione in moduli separati. Questo permette una gestione complessiva della voce che rispetta il flusso naturale della conversazione e ottimizza le prestazioni in tempo reale.

Interfaccia e API

Per utilizzare StepAudio 2.5 Realtime, gli sviluppatori possono collegarsi via WebSocket sull’endpoint wss://api.stepfun.com/v1/realtime , indicando come modello step-2.5-realtime . Quest'interfaccia agevola l’integrazione di modelli vocale avanzati in applicazioni in tempo reale.

Tre Pillari Tecnologici

Secondo il team di ricerca di StepFun, le innovazioni che supportano questa tecnologia sono basate su tre core architetturali: ampliamento della base di dati per personaggi, fine-tuning specifico per la coerenza nel ruolo tramite RLHF, e fusione unificata della comprensione e generazione della voce.

1. Ampliamento Automatico della Dati Personaggio

Partendo da 10.000 personaggi ben definiti e in lingua originale, il team di StepFun ha generato un milione di dati estesi utilizzando tecnologie algoritmiche. Questo insieme di dati è stato combinato con conversazioni reali per migliorare il modello in termini di generalizzazione e robustezza, specialmente in contesti conversazionali rari o complessi.

2. RLHF Specializzato nei Ruoli

Un problema noto nella conversazione artificiale è il “fuori ruolo” (OOC), dove i modelli abbandonano il personaggio definito durante le interazioni. Per prevenire questo fenomeno, il team ha adottato il Reinforcement Learning da Feedback Umano (RLHF), una tecnica di addestramento in cui i dati di preferenze umane istruiscono un modello di ricompensa che a sua volta guida il comportamento del modello. Questo utilizzo mirato di RLHF ha l’obiettivo di mantenere coerente ogni caratterizzazione durante l’interazione con gli utenti.

3. Comunicazione Vocale Unitaria

StepAudio eredita le caratteristiche di StepAudio 2.5 TTS, approfondendo lo studio e l’implementazione delle intonazioni e dettagli sonori all’interno delle singole frasi. Il modello consente all’AI di stabilire un tono complessivo per una risposta (“global scene-level tonal setup”), e di modellare il suono frase per frase (“intra-sentence detail sculpting”).

Comprensione Paralinguistica

Un altro elemento distintivo di StepAudio 2.5 Realtime è la capacità di analisi paralinguistica, intendendo il linguaggio non verbale come tono, velocità di parola, pause, risate o sbadigli. Questi indicatori aiutano il modello a percepire l’umore e le intenzioni del parlante, riconoscere ad esempio stanchezza da una voce bassa o ansia da un ritmo rapido.

Risultati sui Benchmark

Il modello ha riportato un punteggio di 82.18 nel test di comprensione paralinguistica, riscontrando una buona capacità nella lettura di caratteristiche acustiche complesse come età, emozione e velocità di pronuncia, dimostrazione di una visione globale dei dati audio.

Valutazione Generale del Modello

Il team StepFun ha condotto una serie estesa di test, valutando il modello su cinque dimensioni, confrontandolo con i modelli vocale in tempo reale esistenti. I risultati sono espressi in punteggi soggettivi e oggettivi:

Valutazione umana (soggettivo): 80.41

Conversazione generale (oggettivo): 86.36

Scenario Automotive (oggettivo): 84.80

Domande oralizzate su 11 task (oggettivo): 79.80

Comprensione paralinguistica (oggettivo): 82.18

Questi punteggi, testati nel 2026, attestano il primato del modello rispetto alla concorrenza in quasi tutti gli aspetti.

Punti Principali del Modello

StepAudio 2.5 Realtime è un modello linguistico vocale end-to-end.

Utilizza RLHF per mantenere la coerenza nei ruoli durante la conversazione.

Include un’estesa personalizzazione e dati di addestramento a scala.

Dimostra una eccellente comprensione paralinguistica.

Risorse ed Accesso

Per approfondire l'uso di StepAudio 2.5 Realtime, visitate il Model Card e il Demo, dove potete provare le funzionalità direttamente online.

In alternativa potete rimanere aggiornati seguendo StepFun su Twitter, o iscrivervi alla Newsletter, unendo la loro comunità Telegram e piattaforma Reddit. Collaborazioni per promozioni di GitHub Repo, Hugging Face Page, Webinar e altro potete effettuarle contattando lo staff.

Chi Scrive

Michal Sutter

Micahl Sutter è un professionista nel campo della data science e possiede un Master in Data Science presso l’Università di Padova. Con competenze solide in statistica, machine learning e ingegneria del dato, Micahl è esperto nel trasformare grandi set di informazioni in utili analisi.

Quest

Leggi l'articolo originale →

← Torna alle news