在您的應用程式中使用個人版語音
您可以使用個人語音的說話者設定檔識別碼,以超過 100 種地區設定支援的任何 91 種語言合成語音。 不需要地區設定標籤。 個人語音會在句子層級使用自動語言偵測。
在您的應用程式中整合個人語音
您必須使用語音合成標記語言 (SSML) 在應用程式中使用個人語音。 SSML 是以 XML 為基礎的標記語言,可提供標準方法來標記文字以產生綜合語音。 SSML 標記可用來控制語音合成輸出的發音、音量、音調、速率和其他屬性。
SSML 中的
speakerProfileId
屬性可用來指定個人語音的說話者設定檔識別碼。語音名稱是在 SSML 的
name
屬性中指定。 針對個人語音,語音名稱必須是其中一個支援的基底模型語音名稱。 若要取得支援的基底模型語音名稱清單,請使用自訂語音 API 的 BaseModels_List 作業。注意
標示為
Latest
的語音名稱,例如DragonLatestNeural
或PhoenixLatestNeural
,將會不時更新; 其效能可能會隨著更新而有所不同,以取得持續改善。 如果您要使用固定版本,請選擇一個加上版本號碼的標籤,例如PhoenixV2Neural
。DragonLatestNeural
與PhoenixLatestNeural
相比,是具有優越語音複製相似性的基底模型。PhoenixLatestNeural
是一個基底模型,其發音更精確,延遲比DragonLatestNeural
較低。針對個人語音,您可以使用
<lang xml:lang>
元素來調整說話語言。 這與多語種語音相同。 瞭解如何 使用 lang 元素來說不同的語言。
以下是語音名稱和說話者設定檔識別碼之文字轉換語音要求中的範例 SSML。 此範例也會示範如何使用 元素,將語言從 en-US
切換為 zh-HK
<lang xml:lang>
。
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
您可以透過語音 SDK 或 REST API 使用 SSML。
- 即時語音合成: 使用 語音 SDK 或 REST API 將文字轉換成語音。
- 當您使用語音 SDK 時,請勿設定端點識別碼,就像預先建置語音一樣。
- 當您使用 REST API 時,請使用預先建置的神經語音端點。
參考文件
下一步
意見反映
https://aka.ms/ContentUserFeedback。
即將推出:我們會在 2024 年淘汰 GitHub 問題,並以全新的意見反應系統取代並作為內容意見反應的渠道。 如需更多資訊,請參閱:提交及檢視以下的意見反映: