什麼是文字轉換語音？

文章
10/31/2024

在此概觀中，您將了解語音服務的文字轉換語音功能的優點和功能，這是 Azure AI 服務的一部分。

文字轉換語音可讓您的應用程式、工具或裝置將文字轉換成近似人類的合成語音。文字轉換語音功能也稱為語音合成。使用現成可用的類似真人發音的預建神經語音，或建立專屬您產品或品牌的自訂神經語音。如需所支援語音、語言和地區設定的完整清單，請參閱語音服務的語言和語音支援。

核心功能

文字轉換語音包括下列功能：

功能	摘要	示範
預建的神經語音 (在定價頁面上稱為「神經」)	高度自然的現成語音。建立 Azure 訂用帳戶和語音資源，然後使用語音 SDK 或造訪 Speech Studio 入口網站，選取預先建置的神經語音以開始使用。請參閱定價詳細資料。	請參閱語音資源庫，並依照您的商務需求決定合適的語音。
自訂神經語音 (在定價頁面上稱為「自訂神經」)	可建立自然品牌語音的易用自助服務，並提供有限的存取權以確保負責任的使用。建立 Azure 訂用帳戶和語音資源(含 S0 層)，並套用以使用自訂語音功能。在系統授與您存取權限之後，請造訪 Speech Studio 入口網站，然後選取 [自訂語音] 以開始使用。請參閱定價詳細資料。	請參閱語音範例。

深入了解神經文字轉換語音功能

文字轉換語音會使用深度神經網路，使電腦的聲音與人類的錄製內容幾乎無法區分。具有清楚的字組清晰度，神經文字轉換語音大幅降低使用者與 AI 系統互動時的聆聽疲勞。

口語的重音和語調稱為「韻律」。傳統文字轉換語音系統會將音序細分為由獨立模型控管的語言分析和原音預測兩個分離的步驟。這可能會導致語音合成結果悶沉且模糊。

以下是語音服務中神經文字轉換語音功能的詳細資訊，以及如何克服傳統文字轉換語音系統的限制：

即時語音合成：使用語音 SDK 或 REST API，使用預建的神經語音或自訂神經語音進行文字轉換語音。
長音訊的非同步合成：使用批次合成 API，以非同步方式合成超過 10 分鐘的文字轉換語音檔案 (例如有聲書或演講)。不同於透過語音 SDK 或語音轉換文字 REST API 所執行的合成，回應不會即時傳回。預期方式是，系統會非同步傳送要求、輪詢回應，然後在服務可提供合成音訊時進行下載。
預先建置的神經語音：Azure AI 語音使用深度神經網路，來克服傳統語音合成在口語中重音和語調的限制。韻律預測和語音合成會同時發生，如此可產生更流暢且自然發音的輸出。每個預先建置的神經語音模型具有 24 kHz 和高逼真度 48 kHz 形式。您可以使用神經語音：
- 讓與聊天機器人和語音助理的互動更加自然且吸引人。
- 將電子書之類的數位文字轉換成有聲書。
- 增強汽車內導覽系統。
如需預先建置 Azure AI 語音神經語音的完整清單，請參閱語音服務的語言和語音支援。
使用 SSML 改善文字轉換語音輸出：語音合成標記語言 (SSML) 是用來自訂文字轉換語音輸出的 XML 標記語言。使用 SSML 時，您可以調整音高、加入停頓、改善發音、變更說話速度、調整音量，以及將多個聲音屬性設至單一文件。

您可以使用 SSML，定義自己的語彙或切換為不同的說話風格。使用多語言語音，您也可以透過 SSML 調整使用的語言。若要改善案例的語音輸出，請參閱使用語音合成標記語言來改善合成和使用音訊內容建立工具的語音合成。
發音嘴型：發音嘴型為語音觀察到的關鍵姿勢，包括在發出特定的音位時，嘴唇、下顎與舌頭的位置。發音嘴型與語音和音素關聯密切。

藉由在語音 SDK 中使用發音嘴型事件，您可以產生臉部動畫資料。此資料可以用來在讀唇對話、教育、娛樂和客戶服務中製作臉部的動畫。目前僅 en-US (美國英文) 神經語音支援發音嘴型。

注意

除了 Azure AI 語音神經（非 HD）語音之外，您也可以使用 Azure AI 語音高清（HD）語音和 Azure OpenAI 神經（HD 和非 HD）語音。 HD 語音為更多功能的案例提供更高的品質。

某些語音不支援所有語音合成標記語言（SSML）標記。這包括類神經文字到語音的 HD 語音、個人語音，以及內嵌語音。

如需 Azure AI 語音高定義（HD）語音，請查看這裡的 SSML 支援。
如需個人語音，您可以在這裡找到 SSML 支援。
如需內嵌語音，請查看這裡的 SSML 支援。

開始使用

若要開始使用文字轉換語音，請參閱快速入門。文字轉換語音可透過語音 SDK、REST API 和語音 CLI 取得。

提示

若要使用無程式碼方法來進行文字轉換語音，請嘗試 Speech Studio 中的音訊內容建立工具。

範例指令碼

您可以在 GitHub 上取得文字轉換語音的範例程式碼。這些範例涵蓋最受歡迎的程式設計語言中的文字轉換語音：

自訂神經語音

除了預先建置的神經語音之外，您還可以建立產品或品牌專屬的自訂神經語音。只需要少數音訊檔案和相關聯的轉譯即可開始使用。如需詳細資訊，請參閱開始使用自訂神經語音。

定價注意事項

可計費字元

使用文字轉換語音功能時，轉換成語音的每個字元都會計費，包括標點符號。雖然 SSML 文件本身無法計費，但用來調整文字轉換成語音方式的選擇性元素，例如語音和音調，會算作可計費字元。以下為可計費的清單：

在要求的 SSML 本文中傳遞至文字轉換語音功能的文字
在 SSML 格式要求本文文字欄位內的所有標記，除了 <speak> 和 <voice> 標記以外
字母、標點符號、空格、索引標籤、標記和所有空白字元
以 Unicode 定義的每個字碼指標

如需詳細資訊，請參閱語音服務定價。

重要

每個中文字元都以兩個字元計費，包括日文使用的漢字、韓文中使用的漢字，或其他語言使用的漢字。

自訂神經語音的模型訓練和裝載時間

自訂神經語音訓練和裝載都是以小時計算，每秒計費。如需計費單價，請參閱語音服務定價。

自訂神經語音 (CNV) 訓練時間是以「計算時數」(測量機器運行時間的單位) 來測量。一般而言，在訓練語音模型時，兩個運算工作會平行執行。因此，計算的計算時數會比實際的訓練時間長。平均而言，定型自訂神經語音精簡版語音只需不到 1 個計算時數；而對於自訂神經語音專業版，定型單一樣式語音通常需要 20 到 40 個計算時數，訓練多樣式語音則需約 90 個計算時數。 CNV 定型時間的計費上限為 96 個計算時數。因此，如果語音模型是以 98 個計算時數來訓練，則只會向您收取 96 個計算時數的費用。

自訂神經語音 (CNV) 端點裝載是按實際時間 (小時) 來計量。每個端點的裝載時間 (小時) 是在每天 00:00 UTC 時計算前 24 小時的時間。例如，如果端點在第一天處於作用中達 24 小時，則會在第二天的 00:00 UTC 按 24 小時進行計費。如果端點在當天新建立或暫停，則會針對其累積運行時間計費，直到第二天 00：00 UTC 為止。如果端點目前未裝載，則不會計費。除了每天 00:00 UTC 的每日計算之外，在刪除或暫停端點時也會立即觸發計費。例如，針對在 12 月 1 日 08:00 UTC 所建立的端點，裝載小時會在 12 月 2 日 00:00 UTC 和 12 月 3 日 00:00 UTC，將會分別計算為 16 小時和 24 小時。如果使用者在 12 月 3 日 16:30 UTC 暫停裝載端點，則會計算 12 月 3 日 00:00 至 16:30 UTC (16.5 小時) 的持續時間，以進行計費。

個人版語音

當您使用個人語音功能時，系統會針對設定檔儲存體和合成計費。

設定檔儲存體：建立個人語音設定檔后，將對其進行計費，直到將其從系統中移除。計費單位是按每天每個語音。如果語音儲存體持續時間低於 24 小時，則將按一天計費。
合成：按每字元計費。如需可計費字元的詳細資訊，請參閱上述可計費字元。

文字轉換語音虛擬人偶

使用文字轉換語音虛擬人偶功能時，將會根據影片輸出的長度，按每分鐘計費。不過，對於即時虛擬人偶，費用是根據虛擬人偶作用中的時間，無論是說話還是保持沉默，都會按每秒計費。若要將即時虛擬人偶使用量的成本最佳化，請參閱範例程式碼中提供的秘訣 (搜尋「閒置時使用本機影片」)。每個端點的虛擬人偶託管會按每秒計費。您可以暫停端點以節省成本。如果您想要暫停端點，您可以直接將其刪除。若要再次使用，只要重新部署端點即可。

監視 Azure 文字轉換語音計量

監視與文字轉換語音服務相關聯的重要計量，對於管理資源使用狀況和控制成本至關重要。本節將引導您了解如何在 Azure 入口網站中尋找使用方式資訊，並提供重要計量的詳細定義。如需 Azure 監視器計量的詳細資訊，請參閱 Azure 監視器計量概觀。

如何在 Azure 入口網站中尋找使用方式資訊

若要有效地管理 Azure 資源，請務必定期存取及檢閱使用方式資訊。以下說明如何尋找使用方式資訊：

移至 Azure 入口網站，然後以 Azure 帳戶登入。
瀏覽至 [資源]，然後選取您想要監視的資源。
從左側功能表中選取 [監視] 底下的 [計量]。
自訂計量檢視。

您可以依資源類型、計量類型、時間範圍和其他參數篩選資料，以建立符合監視需求的自訂檢視。此外，您可以選取 [儲存至儀表板]，即可輕鬆存取常用計量，將計量檢視儲存至儀表板。
設定警示。

若要更有效地管理使用方式，請瀏覽至左側功能表中的 [監視] 底下的 [警示] 索引標籤，即可設定警示。警示可在使用方式達到特定閾值時通知您，協助防止非預期的成本。

計量的定義

下表摘要說明 Azure 文字轉換語音服務的重要計量。

計量名稱	說明
合成字元	追蹤轉換成語音的字元數，包括預先建置的神經語音和自訂神經語音。如需可計費字元的詳細資訊，請參閱可計費字元。
合成的影片秒數	測量合成影片的總持續時間，包括批次虛擬人偶合成、即時虛擬人偶合成和自訂虛擬人偶合成。
虛擬人偶模型裝載秒數	追蹤自訂虛擬人偶模型裝載的總時間 (以秒為單位)。
語音模型裝載時數	追蹤自訂神經語音模型裝載的總時間 (以小時為單位)。
語音模型訓練分鐘數	測量訓練自訂神經語音模型的總時間 (以分鐘為單位)。

參考文件

負責 AI

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。

分享方式：