Använda personlig röst i ditt program
Du kan använda talarprofil-ID :t för din personliga röst för att syntetisera tal på något av de 91 språk som stöds i över 100 språk. En språktagg krävs inte. Personlig röst använder automatisk språkidentifiering på meningsnivå.
Integrera personlig röst i ditt program
Du måste använda talsyntesmarkeringsspråk (SSML) för att använda personlig röst i ditt program. SSML är ett XML-baserat påläggsspråk som ger ett standardsätt för att markera text för generering av syntetiskt tal. SSML-taggar används för att styra uttal, volym, tonhöjd, frekvens och andra attribut för talsyntesens utdata.
Egenskapen
speakerProfileId
i SSML används för att ange talarprofilens ID för den personliga rösten.Röstnamnet anges i egenskapen
name
i SSML. För personlig röst måste röstnamnet vara ett av de basmodellröstnamn som stöds. Om du vill hämta en lista över basmodellröstnamn som stöds använder du den BaseModels_List funktionen för det anpassade röst-API:et.Kommentar
Röstnamnen
Latest
som är märkta med , till exempelDragonLatestNeural
ellerPhoenixLatestNeural
, uppdateras då och då. Dess prestanda kan variera med uppdateringar för pågående förbättringar. Om du vill använda en fast version väljer du en som är märkt med ett versionsnummer, till exempelPhoenixV2Neural
.DragonLatestNeural
är en basmodell med överlägsen röstkloningslikhet jämförtPhoenixLatestNeural
med .PhoenixLatestNeural
är en basmodell med mer exakt uttal och kortare svarstid änDragonLatestNeural
.För personlig röst kan du använda elementet
<lang xml:lang>
för att justera talarspråket. Det är samma sak som med flerspråkiga röster. Se hur du använder lang-elementet för att tala olika språk.
Här är exempel på SSML i en begäran om text till tal med röstnamnet och talarprofilens ID. Exemplet visar också hur du växlar språk från en-US
till att zh-HK
använda elementet <lang xml:lang>
.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
Du kan använda SSML via Speech SDK eller REST API.
- Talsyntes i realtid: Använd Speech SDK eller REST API för att konvertera text till tal.
- När du använder Speech SDK ska du inte ange slutpunkts-ID, precis som inbyggd röst.
- När du använder REST API använder du den fördefinierade slutpunkten för neurala röster.
Referensdokumentation
Nästa steg
Feedback
https://aka.ms/ContentUserFeedback.
Kommer snart: Under hela 2024 kommer vi att fasa ut GitHub-problem som feedbackmekanism för innehåll och ersätta det med ett nytt feedbacksystem. Mer information finns i:Skicka och visa feedback för