Latentie van spraaksynthese verlagen met behulp van Speech SDK

2025-04-22

In dit artikel introduceren we de aanbevolen procedures om de latentie van tekst tot spraaksynthese te verlagen en de beste prestaties aan uw eindgebruikers te bieden.

Normaal gesproken meten we de latentie door first byte latency en finish latency, als volgt:

Latentie	Beschrijving	Eigenschapssleutel SpeechSynthesisResult
`first byte client latency`	Geeft de tijdsvertraging aan tussen het starten van de synthese en het ontvangen van het eerste audiosegment bij de client, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Geeft de tijdsvertraging aan tussen de synthese begint en de volledige gesynthetiseerde audio wordt ontvangen op de client, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	De netwerklatentie tussen de client en de Azure TTS-service.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Geeft de tijdsvertraging aan tussen de ontvangen syntheseaanvraag van de Azure TTS-service en het eerste audiosegment wordt geretourneerd.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

De Speech SDK plaatst de latentieduur in de verzameling Eigenschappen van SpeechSynthesisResult. In de volgende voorbeeldcode ziet u deze waarden.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
Console.WriteLine($"network latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs)} ms");
Console.WriteLine($"first byte service latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Latentie	Beschrijving	Eigenschapssleutel SpeechSynthesisResult
`first byte client latency`	Geeft de tijdsvertraging aan tussen het begin van de synthese en het moment waarop het eerste audiogedeelte wordt ontvangen op de client, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Geeft de tijdsvertraging aan tussen de synthese begint en de volledige gesynthetiseerde audio wordt ontvangen op de client, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	De netwerklatentie tussen de client en de Azure TTS-service.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Geeft de tijdsvertraging aan tussen de ontvangen syntheseaanvraag van de Azure TTS-service en het eerste audiosegment wordt geretourneerd.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

De Speech SDK heeft de latenties gemeten en deze in het eigenschapspakket van SpeechSynthesisResult geplaatst. Raadpleeg de volgende codes om ze op te halen.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisNetworkLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisServiceLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Latentie	Beschrijving	Eigenschapssleutel SpeechSynthesisResult
`first byte client latency`	Geeft de tijdsvertraging aan tussen het moment dat de synthese start en het eerste audiostuk door de client ontvangen wordt, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Geeft de tijdsvertraging aan tussen de synthese begint en de volledige gesynthetiseerde audio wordt ontvangen op de client, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	De netwerklatentie tussen de client en de Azure TTS-service.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Geeft de tijdsvertraging aan tussen de ontvangen syntheseaanvraag van de Azure TTS-service en het eerste audiosegment wordt geretourneerd.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

De Speech SDK heeft de latenties gemeten en deze in het eigenschapspakket van SpeechSynthesisResult geplaatst. Raadpleeg de volgende codes om ze op te halen.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
System.out.println("network latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs) + " ms.");
System.out.println("first byte service latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Latentie	Beschrijving	Eigenschapssleutel SpeechSynthesisResult
`first byte client latency`	Geeft de tijdsvertraging aan tussen het begin van de synthese en het moment waarop het eerste audiofragment door de client wordt ontvangen, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Geeft de tijdsvertraging aan tussen de synthese begint en de volledige gesynthetiseerde audio wordt ontvangen op de client, inclusief netwerklatentie.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	De netwerklatentie tussen de client en de Azure TTS-service.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Geeft de tijdsvertraging aan tussen de ontvangen syntheseaanvraag van de Azure TTS-service en het eerste audiosegment wordt geretourneerd.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

De Speech SDK heeft de latenties gemeten en deze in de eigenschappenverzameling van SpeechSynthesisResult geplaatst. Raadpleeg de volgende codes om ze op te halen.

result = synthesizer.speak_text_async(text).get()
first_byte_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
network_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs))
first_byte_service_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Latentie	Beschrijving	Eigenschapssleutel SPXSpeechSynthesisResult
`first byte client latency`	Geeft de tijdsvertraging aan tussen de start van de synthese en het moment waarop het eerste audiosegment, inclusief netwerklatentie, wordt ontvangen op de client.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish client latency`	Geeft de tijdsvertraging aan tussen de synthese begint en de volledige gesynthetiseerde audio wordt ontvangen op de client, inclusief netwerklatentie.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`
`network latency`	De netwerklatentie tussen de client en de Azure TTS-service.	`SPXSpeechServiceResponseSynthesisNetworkLatencyMs`
`first byte service latency`	Geeft de tijdsvertraging aan tussen de ontvangen syntheseaanvraag van de Azure TTS-service en het eerste audiosegment wordt geretourneerd.	`SPXSpeechServiceResponseSynthesisServiceLatencyMs`

De Speech SDK heeft de latenties gemeten en plaatst deze in de eigenschapstas van SPXSpeechSynthesisResult. Raadpleeg de volgende codes om ze op te halen.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
int networkLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisNetworkLatencyMs]];
int firstByteServiceLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisServiceLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

De eerste bytelatentie is in de meeste gevallen lager dan de voltooiingslatentie. De eerste bytelatentie is onafhankelijk van de tekstlengte, terwijl de latentie met tekstlengte toeneemt.

Idealiter willen we de door de gebruiker ervaren latentie (de latentie voordat de gebruiker het geluid hoort) minimaliseren tot één netwerkroutetijd plus de eerste audiosegmentlatentie van de spraaksyntheseservice.

Streamen

Streaming is essentieel voor het verlagen van de latentie. Clientcode kan beginnen met afspelen als eerste audiosegment wordt ontvangen. In een servicescenario kunt u de audiosegmenten direct doorsturen naar uw clients in plaats van te wachten op de hele audio.

U kunt de PullAudioOutputStream, PushAudioOutputStreamgebeurtenisSynthesizing en AudioDataStream de Speech SDK gebruiken om streaming in te schakelen.