什麼是文字轉換語音？

發行項
05/30/2024

在此概觀中，您將了解語音服務的文字轉換語音功能的優點和功能，這是 Azure AI 服務的一部分。

文字轉換語音可讓您的應用程式、工具或裝置將文字轉換成近似人類的合成語音。文字轉換語音功能也稱為語音合成。使用現成可用的類似真人發音的預建神經語音，或建立專屬您產品或品牌的自訂神經語音。如需所支援語音、語言和地區設定的完整清單，請參閱語音服務的語言和語音支援。

核心功能

文字轉換語音包括下列功能：

功能	摘要	示範
預建的神經語音 (在定價頁面上稱為「神經」)	高度自然的現成語音。建立 Azure 帳戶和語音服務訂閱，然後使用語音 SDK 或造訪 Speech Studio 入口網站，選取預建的神經語音以開始使用。請參閱定價詳細資料。	請參閱語音資源庫，並依照您的商務需求決定合適的語音。
自訂神經語音 (在定價頁面上稱為「自訂神經」)	可建立自然品牌語音的易用自助服務，並提供有限的存取權以確保負責任的使用。建立 Azure 帳戶與語音服務訂閱 (搭配 S0 層)，並加以套用以使用自訂神經功能。在系統授與您存取權限之後，請造訪 Speech Studio 入口網站，然後選取 [自訂語音] 以開始使用。請參閱定價詳細資料。	請參閱語音範例。

深入了解神經文字轉換語音功能

文字轉換語音會使用深度神經網路，使電腦的聲音與人類的錄製內容幾乎無法區分。具有清楚的字組清晰度，神經文字轉換語音大幅降低使用者與 AI 系統互動時的聆聽疲勞。

口語的重音和語調稱為「韻律」。傳統文字轉換語音系統會將音序細分為由獨立模型控管的語言分析和原音預測兩個分離的步驟。這可能會導致語音合成結果悶沉且模糊。

以下是語音服務中神經文字轉換語音功能的詳細資訊，以及如何克服傳統文字轉換語音系統的限制：

即時語音合成：使用語音 SDK 或 REST API，使用預建的神經語音或自訂神經語音進行文字轉換語音。
長音訊的非同步合成：使用批次合成 API (預覽)，以非同步方式合成超過 10 分鐘的文字轉換語音檔案 (例如有聲書或演講)。不同於透過語音 SDK 或語音轉換文字 REST API 所執行的合成，回應不會即時傳回。預期方式是，系統會非同步傳送要求、輪詢回應，然後在服務可提供合成音訊時進行下載。
預先建置的神經語音：Microsoft 神經文字轉換語音功能使用深度神經網路來克服傳統語音合成在口語中重音和語調的限制。韻律預測和語音合成會同時發生，如此可產生更流暢且自然發音的輸出。每個預先建置的神經語音模型具有 24 kHz 和高逼真度 48 kHz 形式。您可以使用神經語音：
- 讓與聊天機器人和語音助理的互動更加自然且吸引人。
- 將電子書之類的數位文字轉換成有聲書。
- 增強汽車內導覽系統。
如需平台神精語音的完整清單，請參閱語音服務的語言和語音支援。
使用 SSML 微調文字轉換語音輸出：語音合成標記語言 (SSML) 是 XML 標記語言，用來自訂文字轉換語音輸出。使用 SSML 時，您可以調整音高、加入停頓、改善發音、變更說話速度、調整音量，以及將多個聲音屬性設至單一文件。

您可以使用 SSML，定義自己的語彙或切換為不同的說話風格。使用多語言語音，您也可以透過 SSML 調整使用的語言。若要微調您案例的語音輸出，請參閱使用語音合成標記語言來改善語音合成和使用音訊內容建立工具的語音合成。
發音嘴型：發音嘴型為語音觀察到的關鍵姿勢，包括在發出特定的音位時，嘴唇、下顎與舌頭的位置。發音嘴型與語音和音素關聯密切。

藉由在語音 SDK 中使用發音嘴型事件，您可以產生臉部動畫資料。此資料可以用來在讀唇對話、教育、娛樂和客戶服務中製作臉部的動畫。目前僅 en-US (美國英文) 神經語音支援發音嘴型。

注意

我們打算在 2024 年淘汰傳統/標準語音和非神經自訂語音。之後，我們將不再支援這些語音。

如果您的應用程式、工具或產品使用任何標準語音和自訂語音，您必須移轉至神經語音版本。如需詳細資訊，請參閱移轉至神經語音。

開始使用

若要開始使用文字轉換語音，請參閱快速入門。文字轉換語音可透過語音 SDK、REST API 和語音 CLI 取得。

提示

若要使用無程式碼方法來進行文字轉換語音，請嘗試 Speech Studio 中的音訊內容建立工具。

範例指令碼

您可以在 GitHub 上取得文字轉換語音的範例程式碼。這些範例涵蓋最受歡迎的程式設計語言中的文字轉換語音：

自訂神經語音

除了預先建立的神經語音之外，您還可以建立及微調您產品或品牌專屬的自訂神經語音。只需要少數音訊檔案和相關聯的轉譯即可開始使用。如需詳細資訊，請參閱開始使用自訂神經語音。

定價注意事項

可計費字元

使用文字轉換語音功能時，轉換成語音的每個字元都會計費，包括標點符號。雖然 SSML 文件本身無法計費，但用來調整文字轉換成語音方式的選擇性元素，例如語音和音調，會算作可計費字元。以下為可計費的清單：

在要求的 SSML 本文中傳遞至文字轉換語音功能的文字
在 SSML 格式要求本文文字欄位內的所有標記，除了 <speak> 和 <voice> 標記以外
字母、標點符號、空格、索引標籤、標記和所有空白字元
以 Unicode 定義的每個字碼指標

如需詳細資訊，請參閱語音服務定價。

重要

每個中文字元都以兩個字元計費，包括日文使用的漢字、韓文中使用的漢字，或其他語言使用的漢字。

自訂神經語音的模型訓練和裝載時間

自訂神經語音訓練和裝載都是以小時計算，每秒計費。如需計費單價，請參閱語音服務定價。

自訂神經語音 (CNV) 訓練時間是以「計算時數」(測量機器運行時間的單位) 來測量。一般而言，在訓練語音模型時，兩個運算工作會平行執行。因此，計算的計算時數會比實際的訓練時間長。平均而言，定型自訂神經語音精簡版語音只需不到 1 個計算時數；而對於自訂神經語音專業版，定型單一樣式語音通常需要 20 到 40 個計算時數，訓練多樣式語音則需約 90 個計算時數。 CNV 定型時間的計費上限為 96 個計算時數。因此，如果語音模型是以 98 個計算時數來訓練，則只會向您收取 96 個計算時數的費用。

自訂神經語音 (CNV) 端點裝載是按實際時間 (小時) 來計量。每個端點的裝載時間 (小時) 是在每天 00:00 UTC 時計算前 24 小時的時間。例如，如果端點在第一天處於作用中達 24 小時，則會在第二天的 00:00 UTC 按 24 小時進行計費。如果端點在當天新建立或暫停，則會針對其累積運行時間計費，直到第二天 00：00 UTC 為止。如果端點目前未裝載，則不會計費。除了每天 00:00 UTC 的每日計算之外，在刪除或暫停端點時也會立即觸發計費。例如，針對在 12 月 1 日 08:00 UTC 所建立的端點，裝載小時會在 12 月 2 日 00:00 UTC 和 12 月 3 日 00:00 UTC，將會分別計算為 16 小時和 24 小時。如果使用者在 12 月 3 日 16:30 UTC 暫停裝載端點，則會計算 12 月 3 日 00:00 至 16:30 UTC (16.5 小時) 的持續時間，以進行計費。

參考文件

負責 AI

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。

共用方式為