Réduire la latence de synthèse vocale avec le SDK Speech

Article
01/21/2024

La latence de synthèse est essentielle pour vos applications. Dans cet article, nous allons présenter les meilleures pratiques qui permettent de réduire la latence et d’offrir à vos utilisateurs finaux les meilleures performances.

Normalement, nous mesurons la latence par first byte latency et finish latency, comme suit :

Latence	Description	Clé de propriété SpeechSynthesisResult
first byte latency (latence du premier octet)	Indique l’intervalle de temps entre le début de la tâche de synthèse et la réception du premier bloc de données audio.	SpeechServiceResponse_SynthesisFirstByteLatencyMs
finish latency (latence de fin)	Indique l’intervalle de temps entre le début de la tâche de synthèse et la réception de l’intégralité des données audio synthétisées.	SpeechServiceResponse_SynthesisFinishLatencyMs

Le SDK Speech place les durées de latence dans la collection Properties de SpeechSynthesisResult. L’exemple de code suivant illustre ces valeurs.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Latence	Description	Clé de propriété SpeechSynthesisResult
`first byte latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception du premier bloc audio.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception de l’intégralité de l’audio synthétisé.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Le SDK Speech a mesuré les latences et les a placées dans le jeu de propriétés de SpeechSynthesisResult. Reportez-vous aux codes suivants pour les obtenir.

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Latence	Description	Clé de propriété SpeechSynthesisResult
`first byte latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception du premier bloc audio.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception de l’intégralité de l’audio synthétisé.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Le SDK Speech a mesuré les latences et les a placées dans le jeu de propriétés de SpeechSynthesisResult. Reportez-vous aux codes suivants pour les obtenir.

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Latence	Description	Clé de propriété SpeechSynthesisResult
`first byte latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception du premier bloc audio.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception de l’intégralité de l’audio synthétisé.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Le SDK Speech a mesuré les latences et les a placées dans le jeu de propriétés de SpeechSynthesisResult. Reportez-vous aux codes suivants pour les obtenir.

result = synthesizer.speak_text_async(text).get()
first_byte_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Latence	Description	Clé de propriété SPXSpeechSynthesisResult
`first byte latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception du premier bloc audio.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish latency`	Indique l’intervalle de temps entre le début de la synthèse et la réception de l’intégralité de l’audio synthétisé.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`

Le SDK Speech a mesuré les latences et les a placées dans le jeu de propriétés de SPXSpeechSynthesisResult. Reportez-vous aux codes suivants pour les obtenir.

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

Dans la plupart des cas, la latence du premier octet est plus faible que la latence de fin. La latence du premier octet est indépendante de la longueur du texte, tandis que la latence de fin augmente avec la longueur du texte.

Idéalement, nous voulons minimiser la latence expérimentée par l’utilisateur (la latence qui se produit avant que l’utilisateur entende le son) à une seule durée aller-retour réseau additionnée à la latence du premier bloc audio du service de synthèse vocale.

Diffusion en continu

Le streaming est essentiel pour réduire la latence. Le code client peut commencer la lecture dès que le premier bloc audio est reçu. Dans un scénario de service, vous pouvez transférer les blocs audio immédiatement à vos clients au lieu d’attendre l’intégralité de l’audio.

Vous pouvez utiliser PullAudioOutputStream, PushAudioOutputStream, l’événement Synthesizing et AudioDataStream du SDK Speech pour activer le streaming.