Kortare svarstid för talsyntes med hjälp av Tal-SDK

Artikel
2024-09-29

I den här artikeln introducerar vi metodtipsen för att sänka svarstiden för text till talsyntes och ge slutanvändarna bästa prestanda.

Normalt mäter vi svarstiden first byte latency efter och finish latency, enligt följande:

Svarstid	beskrivning	SpeechSynthesisResult-egenskapsnyckel
svarstid för första byte	Anger tidsfördröjningen mellan starten av syntesaktiviteten och mottagandet av den första delen av ljuddata.	SpeechServiceResponse_SynthesisFirstByteLatencyMs
slutför svarstid	Anger tidsfördröjningen mellan starten av syntesaktiviteten och mottagandet av hela syntetiserade ljuddata.	SpeechServiceResponse_SynthesisFinishLatencyMs

Speech SDK placerar svarstidsvaraktigheterna i samlingen SpeechSynthesisResultEgenskaper för . Följande exempelkod visar dessa värden.

var result = await synthesizer.SpeakTextAsync(text);
Console.WriteLine($"first byte latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs)} ms");
Console.WriteLine($"finish latency: \t{result.Properties.GetProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs)} ms");
// you can also get the result id, and send to us when you need help for diagnosis
var resultId = result.ResultId;

Svarstid	beskrivning	SpeechSynthesisResult-egenskapsnyckel
`first byte latency`	Anger tidsfördröjningen mellan syntesen startar och det första ljudsegmentet tas emot.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Anger tidsfördröjningen mellan att syntesen startar och att hela det syntetiserade ljudet tas emot.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Speech SDK mätte svarstiderna och placerar dem i egenskapspåsen för SpeechSynthesisResult. Se följande koder för att hämta dem.

C++

auto result = synthesizer->SpeakTextAsync(text).get();
auto firstByteLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFirstByteLatencyMs));
auto finishedLatency = std::stoi(result->Properties.GetProperty(PropertyId::SpeechServiceResponse_SynthesisFinishLatencyMs));
// you can also get the result id, and send to us when you need help for diagnosis
auto resultId = result->ResultId;

Svarstid	beskrivning	SpeechSynthesisResult-egenskapsnyckel
`first byte latency`	Anger tidsfördröjningen mellan syntesen startar och det första ljudsegmentet tas emot.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Anger tidsfördröjningen mellan att syntesen startar och att hela det syntetiserade ljudet tas emot.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Speech SDK mätte svarstiderna och placerar dem i egenskapspåsen för SpeechSynthesisResult. Se följande koder för att hämta dem.

Java

SpeechSynthesisResult result = synthesizer.SpeakTextAsync(text).get();
System.out.println("first byte latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs) + " ms.");
System.out.println("finish latency: \t" + result.getProperties().getProperty(PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs) + " ms.");
// you can also get the result id, and send to us when you need help for diagnosis
String resultId = result.getResultId();

Svarstid	beskrivning	SpeechSynthesisResult-egenskapsnyckel
`first byte latency`	Anger tidsfördröjningen mellan syntesen startar och det första ljudsegmentet tas emot.	`SpeechServiceResponse_SynthesisFirstByteLatencyMs`
`finish latency`	Anger tidsfördröjningen mellan att syntesen startar och att hela det syntetiserade ljudet tas emot.	`SpeechServiceResponse_SynthesisFinishLatencyMs`

Speech SDK mätte svarstiderna och placerar dem i egenskapspåsen för SpeechSynthesisResult. Se följande koder för att hämta dem.

Python

result = synthesizer.speak_text_async(text).get()
first_byte_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFirstByteLatencyMs))
finished_latency = int(result.properties.get_property(speechsdk.PropertyId.SpeechServiceResponse_SynthesisFinishLatencyMs))
# you can also get the result id, and send to us when you need help for diagnosis
result_id = result.result_id

Svarstid	beskrivning	Egenskapsnyckeln SPXSpeechSynthesisResult
`first byte latency`	Anger tidsfördröjningen mellan syntesen startar och det första ljudsegmentet tas emot.	`SPXSpeechServiceResponseSynthesisFirstByteLatencyMs`
`finish latency`	Anger tidsfördröjningen mellan att syntesen startar och att hela det syntetiserade ljudet tas emot.	`SPXSpeechServiceResponseSynthesisFinishLatencyMs`

Speech SDK mätte svarstiderna och placerar dem i egenskapspåsen för SPXSpeechSynthesisResult. Se följande koder för att hämta dem.

Objective-C

SPXSpeechSynthesisResult *speechResult = [speechSynthesizer speakText:text];
int firstByteLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFirstByteLatencyMs]];
int finishedLatency = [intString [speechResult.properties getPropertyById:SPXSpeechServiceResponseSynthesisFinishLatencyMs]];
// you can also get the result id, and send to us when you need help for diagnosis
NSString *resultId = result.resultId;

Den första bytefördröjningen är i de flesta fall lägre än svarstiden för slut. Den första bytefördröjningen är oberoende av textlängd, medan svarstiden för slut ökar med textlängd.

Helst vill vi minimera svarstiden för användaranvändarna (svarstiden innan användaren hör ljudet) till en restid för nätverksvägen plus den första svarstiden för ljudsegmentet i talsyntestjänsten.

Strömning

Direktuppspelning är avgörande för att minska svarstiden. Klientkoden kan starta uppspelningen när det första ljudsegmentet tas emot. I ett tjänstscenario kan du vidarebefordra ljudsegment direkt till dina klienter, i stället för att vänta på hela ljudet.

Du kan använda PullAudioOutputStreamhändelsen , PushAudioOutputStreamSynthesizing och AudioDataStream Speech SDK för att aktivera strömning.