Уменьшение задержки синтеза речи с помощью пакета SDK службы "Речь"

2025-04-21

В этой статье мы введем рекомендации по снижению задержки синтеза речи и повышению производительности для конечных пользователей.

Обычно задержка измерятся параметрами first byte latency и finish latency следующим образом:

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между запросом синтеза, полученным службой Azure TTS, и возвратом первого блока аудио.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

В пакете SDK для службы "Речь" значения длительности задержки находятся в коллекции свойств SpeechSynthesisResult. Эти значения показаны в образце кода ниже.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish client latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
Console.WriteLine($"network latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs)} ms");
Console.WriteLine($"first byte service latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает на задержку времени между получением запросом на синтез службой TTS Azure и возвращением первого аудиофрагмента.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

SDK для речи измеряет задержки и помещает их в набор свойств SpeechSynthesisResult. Обратитесь к следующим кодам, чтобы получить их.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisNetworkLatencyMs));
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisServiceLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между службой TTS Azure после получения запроса на синтез и возвратом первого звукового блока.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

SDK для распознавания речи измеряет задержки и помещает их в контейнер свойств SpeechSynthesisResult. Используйте следующие коды, чтобы получить их.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish client latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
System.out.println("network latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs) + " ms.");
System.out.println("first byte service latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Задержка	Описание	Ключ свойства SpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SpeechServiceResponse_SynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SpeechServiceResponse_SynthesisNetworkLatencyMs`
`first byte service latency`	Указывает задержку времени между службой TTS Azure, полученной запросом синтеза, и возвращается первый блок звука.	`SpeechServiceResponse_SynthesisServiceLatencyMs`

Пакет SDK службы "Речь" измеряет задержки и помещает их в контейнер свойств SpeechSynthesisResult. В коде ниже показано, как их получить.

result = synthesizer.speak_text_async(text).get()
first_byte_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_client_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
network_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisNetworkLatencyMs))
first_byte_service_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisServiceLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Задержка	Описание	Ключ свойства SPXSpeechSynthesisResult
`first byte client latency`	Указывает задержку времени между началом синтеза и первым блоком звука, полученным на клиенте, включая задержку сети.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish client latency`	Указывает задержку времени между началом синтеза и получением всего синтезированного звука на клиенте, включая задержку сети.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`
`network latency`	Задержка сети между клиентом и службой TTS Azure.	`SPXSpeechServiceResponseSynthesisNetworkLatencyMs`
`first byte service latency`	Указывает временную задержку между получением службой Azure TTS запроса на синтез и возвращением первого звукового фрагмента.	`SPXSpeechServiceResponseSynthesisServiceLatencyMs`

Средства разработки для речевых технологий измеряют задержки и помещают их в пакет свойств SPXSpeechSynthesisResult. Обратитесь к следующим кодам, чтобы их получить.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedClientLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
int networkLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisNetworkLatencyMs]];
int firstByteServiceLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisServiceLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

Первая задержка байтов ниже, чем задержка завершения в большинстве случаев. Задержка первого байта не зависит от длины текста, а задержка завершения растет по мере увеличения этой длины.

В идеальном случае требуется минимизировать задержку для пользователя (время перед тем, как пользователь услышит звук) до времени однократного прохождения сетевого маршрута плюс задержка первого звукового фрагмента от службы синтеза речи.

Стриминг

Потоковая передача — важнейший фактор снижения задержки. Клиентский код может начать воспроизведение при получении первого звукового фрагмента. В сценарии обслуживания вы можете сразу пересылать клиентам звуковые фрагменты, не дожидаясь формирования всего звукового пакета.

Для реализации потоковой передачи можно использовать PullAudioOutputStream, PushAudioOutputStream, Synthesizing событие и AudioDataStream пакета SDK службы "Речь".