什麼是文字轉換語音?

在此概觀中,您將了解語音服務的文字轉換語音功能的優點和功能,這是 Azure 認知服務的一部分。

文字轉換語音可讓您的應用程式、工具或裝置將文字轉換成近似人類的合成語音。 文字轉換語音功能也稱為語音合成。 使用現成可用的類似真人發音的預建神經語音,或建立專屬您產品或品牌的自訂神經語音。 如需所支援語音、語言和地區設定的完整清單,請參閱語音服務的語言和語音支援

核心功能

文字轉換語音包括下列功能:

功能 總結 示範
預建的神經語音 (在定價頁面上稱為「神經」) 高度自然的現成語音。 建立 Azure 帳戶和語音服務訂閱,然後使用語音 SDK 或造訪 Speech Studio 入口網站,選取預建的神經語音以開始使用。 請參閱定價詳細資料 檢查 語音資源庫 ,並判斷適合您業務需求的語音。
定價頁面上的自訂類神經語音 (稱為自訂類神經) 可建立自然品牌語音的易用自助服務,並提供有限的存取權以確保負責任的使用。 建立 Azure 帳戶與語音服務訂閱 (搭配 S0 層),並加以套用以使用自訂神經功能。 在系統授與您存取權之後,請造訪 Speech Studio 入口網站,然後選取 [自訂語音] 以開始使用。 請參閱定價詳細資料 請參閱語音範例

深入了解神經文字轉換語音功能

Azure 上語音服務的文字轉換語音功能已完全升級至神經文字轉換語音引擎。 此引擎使用深度神經網路使電腦的聲音與人的錄音幾乎無法區分。 具有清楚的字組清晰度,神經文字轉換語音大幅降低使用者與 AI 系統互動時的聆聽疲勞。

口語的重音和語調稱為「韻律」。 傳統的文字轉換語音系統將韻律細分為由獨立模型分別控管的語言分析和聲學預測步驟。 這可能會導致語音合成結果悶沉且模糊。

以下是語音服務中神經文字轉換語音功能的詳細資訊,以及如何克服傳統文字轉換語音系統的限制:

  • 即時語音合成 - 使用語音 SDKREST API,使用預建的神經語音自訂神經語音進行文字轉換語音。

  • 長音訊的非同步合成:使用批次合成 API (預覽),以非同步方式合成超過 10 分鐘的文字轉換語音檔案 (例如有聲書或演講)。 不同於透過語音 SDK 或語音轉換文字 REST API 所執行的合成,回應不會即時傳回。 預期方式是,系統會非同步傳送要求、輪詢回應,然後在服務可提供合成音訊時進行下載。

  • 預建神經語音:Microsoft 神經文字轉換語音功能會使用深度神經網路,克服傳統語音合成在口語重音及語調上的限制。 韻律預測和語音合成會同時發生,如此可產生更流暢且自然發音的輸出。 每個預先建置的神經語音模型都可透過 24kHz 和高逼真度 48kHz 取得。 您可以使用神經語音:

    • 讓與聊天機器人和語音助理的互動更加自然且吸引人。
    • 將電子書之類的數位文字轉換成有聲書。
    • 增強汽車內導覽系統。

    如需平台神經語音的完整清單,請參閱語音服務的語言和語音支援

  • 使用 SSML 微調文字轉換語音輸出:語音合成標記語言 (SSML) 是用來自訂文字轉換語音輸出的 XML 標記語言。 使用 SSML 時,您可以調整音高、加入停頓、改善發音、變更說話速度、調整音量,以及將多個聲音屬性設至單一文件。

    您可以使用 SSML,定義自己的語彙或切換為不同的說話風格。 使用多語言語音,您也可以透過 SSML 調整使用的語言。 若要微調您案例的語音輸出,請參閱使用語音合成標記語言來改善語音合成使用音訊內容建立工具的語音合成

  • 發音嘴型發音嘴型為語音觀察到的關鍵姿勢,包括在發出特定的音位時,嘴唇、下顎與舌頭的位置。 發音嘴型與語音和音素關聯密切。

    藉由在語音 SDK 中使用發音嘴型事件,您可以產生臉部動畫資料。 此資料可以用來在讀唇對話、教育、娛樂和客戶服務中製作臉部的動畫。 目前僅 en-US (美國英文) 神經語音支援發音嘴型。

注意

我們打算在 2024 年淘汰傳統/標準語音和非神經自訂語音。 之後,我們將不再支援這些語音。

如果您的應用程式、工具或產品使用任何標準語音和自訂語音,您必須移轉至神經語音版本。 如需詳細資訊,請參閱移轉至神經語音

開始使用

若要開始使用文字轉換語音,請參閱快速入門。 文字轉換語音可透過語音 SDKREST API語音 CLI 取得。

提示

若要使用無程式碼方法來進行文字轉換語音,請嘗試 Speech Studio 中的音訊內容建立工具。

範例程式碼

您可以在 GitHub 上取得文字轉換語音的範例程式碼。 這些範例涵蓋最受歡迎的程式設計語言中的文字轉換語音:

自訂神經語音

除了預先建立的神經語音之外,您還可以建立及微調您產品或品牌專屬的自訂神經語音。 只需要少數音訊檔案和相關聯的轉譯即可開始使用。 如需詳細資訊,請參閱 開始使用自訂類神經語音

定價注意事項

可計費字元

使用文字轉換語音功能時,轉換成語音的每個字元都會計費,包括標點符號。 雖然 SSML 文件本身不可計費,但用來調整文字轉換成語音的選擇性元素 (例如音素和音高) 則視為可計費的字元。 以下為可計費的清單:

  • 在要求的 SSML 本文中傳遞至文字轉換語音功能的文字
  • 在 SSML 格式要求本文文字欄位內的所有標記,除了 <speak><voice> 標記以外
  • 字母、標點符號、空格、索引標籤、標記和所有空白字元
  • 以 Unicode 定義的每個字碼指標

如需詳細資訊,請參閱語音服務定價

重要事項

每個中文字元都以兩個字元計費,包括日文使用的漢字、韓文中使用的漢字,或其他語言使用的漢字。

自訂神經語音的模型定型和裝載時間

自訂神經語音定型和裝載都是以小時和每秒計費計算。 如需計費單價,請參閱 語音服務定價

自訂神經語音 (CNV) 定型時間是由「計算時數」測量 (單位來測量機器執行時間) 。 一般而言,定型語音模型時,會平行執行兩個運算工作。 因此,計算計算的計算時數會比實際的定型時間長。 平均而言,定型 CNV Lite 語音需要少於一個計算小時;雖然針對 CNV Pro,通常需要 20 到 40 個計算時數來訓練單一樣式語音,大約需要 90 個計算時數來訓練多樣式語音。 CNV 定型時間的計費上限為 96 個計算時數。 因此,在語音模型以 98 個計算時數定型的情況下,您只需要支付 96 個計算時數的費用。

自訂神經語音 (CNV) 端點裝載是由實際時間 (小時) 來測量。 每個端點的裝載時間 (小時) 計算為每天 00:00 UTC,前 24 小時。 例如,如果端點在第一天使用 24 小時,則會在第二天 00:00 UTC 支付 24 小時的費用。 如果端點是新建立的,或已在當天暫停,則會針對其已累積的執行時間計費,直到第二天 00:00 UTC 為止。 如果端點目前未裝載,將不會計費。 除了每天 00:00 UTC 的每日計算之外,也會在刪除或暫停端點時立即觸發計費。 例如,對於在 12 月 1 日于 08:00 UTC 建立的端點,裝載小時會在 12 月 2 日計算為 16 小時,12 月 2 日為 24 小時,12 月 3 日為 00:00 UTC。 如果使用者在 12 月 3 日暫停裝載端點的 UTC 時間,則會計算 16:00 到 16:30 UTC 的持續時間 (16.5 小時) 到 16:30 UTC。

參考文件

後續步驟