Ridurre la latenza della sintesi vocale con Speech SDK

Articolo
01/22/2024

La latenza di sintesi è fondamentale per le applicazioni. In questo articolo verranno presentate le procedure consigliate per ridurre la latenza e offrire prestazioni ottimali agli utenti finali.

In genere, la latenza viene misurata in base a first byte latency e finish latency, come indicato di seguito:

Latenza	Descrizione	Chiave della proprietà SpeechSynthesisResult
latenza di primo byte	Indica il ritardo di tempo tra l'inizio dell'attività di sintesi e la ricezione del primo blocco di dati audio.	SpeechServiceResponse_SynthesisFirstByteLatencyMs
latenza di fine	Indica il ritardo di tempo tra l'inizio dell'attività di sintesi e la ricezione dell'intero dati audio sintetizzato.	SpeechServiceResponse_SynthesisFinishLatencyMs

Speech SDK inserisce le durate di latenza nella raccolta Properties di SpeechSynthesisResult. Il codice di esempio seguente mostra questi valori.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Latenza	Descrizione	Chiave della proprietà SpeechSynthesisResult
`first byte latency`	Indica il ritardo tra l'inizio della sintesi e il primo blocco audio ricevuto.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica il ritardo di tempo tra l'inizio della sintesi e l'intero audio sintetizzato.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Speech SDK ha misurato le latenze e le inserisce nel contenitore delle proprietà di SpeechSynthesisResult. Per ottenerli, fare riferimento ai codici seguenti.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Latenza	Descrizione	Chiave della proprietà SpeechSynthesisResult
`first byte latency`	Indica il ritardo tra l'inizio della sintesi e il primo blocco audio ricevuto.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica il ritardo di tempo tra l'inizio della sintesi e l'intero audio sintetizzato.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Speech SDK ha misurato le latenze e le inserisce nel contenitore delle proprietà di SpeechSynthesisResult. Per ottenerli, fare riferimento ai codici seguenti.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Latenza	Descrizione	Chiave della proprietà SpeechSynthesisResult
`first byte latency`	Indica il ritardo tra l'inizio della sintesi e il primo blocco audio ricevuto.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indica il ritardo di tempo tra l'inizio della sintesi e l'intero audio sintetizzato.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Speech SDK ha misurato le latenze e le inserisce nel contenitore delle proprietà di SpeechSynthesisResult. Per ottenerli, fare riferimento ai codici seguenti.

result = synthesizer.speak_text_async(text).get()
first_byte_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Latenza	Descrizione	Chiave della proprietà SPXSpeechSynthesisResult
`first byte latency`	Indica il ritardo tra l'inizio della sintesi e il primo blocco audio ricevuto.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish latency`	Indica il ritardo di tempo tra l'inizio della sintesi e l'intero audio sintetizzato.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`

Speech SDK ha misurato le latenze e le inserisce nel contenitore delle proprietà di SPXSpeechSynthesisResult. Per ottenerli, fare riferimento ai codici seguenti.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

La prima latenza di byte è inferiore alla latenza di fine nella maggior parte dei casi. La prima latenza dei byte è indipendente dalla lunghezza del testo, mentre la latenza di fine aumenta con la lunghezza del testo.

Idealmente, si vuole ridurre al minimo la latenza vissuto dall'utente (la latenza prima che l'utente senta il suono) a un tempo di viaggio di route di rete più la prima latenza audio in blocchi del servizio di sintesi vocale.

Streaming

Lo streaming è fondamentale per ridurre la latenza. Il codice client può avviare la riproduzione quando viene ricevuto il primo blocco audio. In uno scenario di servizio, è possibile inoltrare immediatamente i blocchi audio ai client invece di attendere l'intero audio.

È possibile usare l'evento PullAudioOutputStream, PushAudioOutputStream, Synthesizing e AudioDataStream di Speech SDK per abilitare lo streaming.