Menor latencia de síntesis de voz mediante el SDK de Voz

2025-04-16

En este artículo, presentamos los procedimientos recomendados para reducir la latencia de síntesis de voz del texto a voz y aportar el mejor rendimiento a los usuarios finales.

Habitualmente, la latencia se mide por first byte latency y finish latency, como se muestra a continuación:

Latencia	Descripción	Clave de propiedad SpeechSynthesisResult
`first byte client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el primer fragmento de audio se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el audio sintetizado completo se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Latencia de red entre el cliente y el servicio Azure TTS.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Indica el retraso de tiempo entre la solicitud de síntesis recibida del servicio TTS de Azure y se devuelve el primer fragmento de audio.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

El SDK de Voz coloca las duraciones de latencia en la colección Properties de SpeechSynthesisResult. En el siguiente código de ejemplo se muestran estos valores.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
Console.WriteLine($"network latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs)} ms");
Console.WriteLine($"first byte service latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Latencia	Descripción	Clave de propiedad SpeechSynthesisResult
`first byte client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el primer fragmento de audio se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el audio sintetizado completo se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Latencia de red entre el cliente y el servicio Azure TTS.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Indica el retraso de tiempo entre la solicitud de síntesis recibida del servicio TTS de Azure y se devuelve el primer fragmento de audio.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

El SDK de Voz mide las latencias y las coloca en el contenedor de propiedades de SpeechSynthesisResult. Consulte los códigos siguientes para obtenerlas.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisNetworkLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisServiceLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Latencia	Descripción	Clave de propiedad SpeechSynthesisResult
`first byte client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el primer fragmento de audio se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el audio sintetizado completo se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Latencia de red entre el cliente y el servicio Azure TTS.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Indica el retraso de tiempo entre la solicitud de síntesis recibida del servicio TTS de Azure y se devuelve el primer fragmento de audio.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

El SDK de Voz mide las latencias y las coloca en el contenedor de propiedades de SpeechSynthesisResult. Consulte los códigos siguientes para obtenerlas.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
System.out.println("network latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs) + " ms.");
System.out.println("first byte service latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Latencia	Descripción	Clave de propiedad SpeechSynthesisResult
`first byte client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el primer fragmento de audio se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el audio sintetizado completo se recibe en el cliente, incluida la latencia de red.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Latencia de red entre el cliente y el servicio Azure TTS.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Indica el retraso de tiempo entre la solicitud de síntesis recibida del servicio TTS de Azure y se devuelve el primer fragmento de audio.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

El SDK de Voz mide las latencias y las coloca en el contenedor de propiedades de SpeechSynthesisResult. Consulte los códigos siguientes para obtenerlas.

result = synthesizer.speak_text_async(text).get()
first_byte_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
network_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs))
first_byte_service_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Latencia	Descripción	Clave de propiedad SPXSpeechSynthesisResult
`first byte client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el primer fragmento de audio se recibe en el cliente, incluida la latencia de red.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish client latency`	Indica el retraso de tiempo entre los inicios de la síntesis y el audio sintetizado completo se recibe en el cliente, incluida la latencia de red.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`
`network latency`	Latencia de red entre el cliente y el servicio Azure TTS.	`SPXSpeechServiceResponseSynthesisNetworkLatencyMs`
`first byte service latency`	Indica el retraso de tiempo entre la solicitud de síntesis recibida del servicio TTS de Azure y se devuelve el primer fragmento de audio.	`SPXSpeechServiceResponseSynthesisServiceLatencyMs`

El SDK de Voz mide las latencias y las coloca en el contenedor de propiedades de SPXSpeechSynthesisResult. Consulte los códigos siguientes para obtenerlas.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
int networkLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisNetworkLatencyMs]];
int firstByteServiceLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisServiceLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

La latencia del primer byte es menor que la latencia de finalización en la mayoría de los casos. La latencia del primer byte es independiente de la longitud del texto, mientras que la latencia de finalización aumenta con la longitud del texto.

Lo ideal es minimizar la latencia experimentada por el usuario (la latencia antes de que el usuario escucha el sonido) al tiempo de recorrido de una ruta de red, más la latencia del primer fragmento de audio del servicio de síntesis de voz.

Streaming

El streaming es fundamental para reducir la latencia. El código de cliente puede iniciar la reproducción cuando se recibe el primer fragmento de audio. En un escenario de servicio, puede reenviar los fragmentos de audio inmediatamente a los clientes, en lugar de esperar todo el audio.

Puede usar el PullAudioOutputStream, PushAudioOutputStream, Synthesizing eventoy AudioDataStream del SDK de Voz para habilitar el streaming.