語音合成標記語言 (SSML) 概觀
語音合成標記語言 (SSML) 是以 XML 為基礎的標記語言,可用來微調文字轉換語音屬性,例如音調、發音、說話速率、音量等等。 相較于純文字輸入,您有更多控制權和彈性。
提示
您可以透過 語音庫來聽聽不同樣式的語音,以及閱讀範例文字的音調。
案例
您可以使用 SSML 來:
- 定義輸入文字結構 ,以決定文字到語音轉換輸出的結構、內容和其他特性。 例如,您可以使用 SSML 來定義段落、句子、中斷或暫停或無聲。 您可以使用書簽或 viseme 等事件標記來包裝文字,稍後可由您的應用程式處理。
- 選擇語音、語言、名稱、樣式和角色。 您可以在單一 SSML 檔中使用多個語音。 調整強調、說話速率、音調和音量。 您也可以使用 SSML 來插入預先錄製的音訊,例如音效或音樂筆記。
- 控制 輸出音訊的發音。 例如,您可以使用 SSML 搭配 phonemes 和自訂語彙來改善發音。 您也可以使用 SSML 來定義單字或數學運算式的發音方式。
使用 SSML
重要事項
轉換成語音的每個字元都會計費,包括標點符號。 雖然 SSML 文件本身不可計費,但用來調整文字轉換成語音的選擇性元素 (例如音素和音高) 則視為可計費的字元。 如需詳細資訊,請參閱文字轉換語音定價附註。
您可以使用下列方式使用 SSML:
- 音訊內容建立 工具:在語音 Studio 中撰寫純文字和 SSML:您可以接聽輸出音訊並調整 SSML 以改善語音合成。 如需詳細資訊,請參閱使用音訊內容建立工具來合成語音。
- 批次合成 API:透過
inputs
屬性提供 SSML。 - 語音 CLI:透過
spx synthesize --ssml SSML
命令列引數提供 SSML。 - 語音 SDK:透過 「speak」 SSML 方法提供 SSML。