什麼是文字轉換語音？

2025-06-02

在此概觀中，您將了解語音服務的文字轉換語音功能的優點和功能，這是 Azure AI 服務的一部分。

文字轉換語音可讓您的應用程式、工具或裝置將文字轉換成近似人類的合成語音。文字轉換語音功能也稱為語音合成。使用類似人類的標準聲音，或為您的產品或品牌創造獨特的自定義聲音。如需所支援語音、語言和地區設定的完整清單，請參閱語音服務的語言和語音支援。

核心功能

文字轉換語音包括下列功能：

功能	摘要	示範
標準語音（在定價頁面上稱為類神經語音）	高度自然的現成語音。建立 Azure 訂用帳戶和語音資源，然後使用語音 SDK 或瀏覽語音 Studio 入口網站，然後選取標準語音以開始使用。請參閱定價詳細資料。	請參閱語音資源庫，並依照您的商務需求決定合適的語音。
自訂語音	可建立自然品牌語音的易用自助服務，並提供有限的存取權以確保負責任的使用。建立 Azure 訂用帳戶和 Azure AI Foundry 資源，然後套用以使用自訂語音。授與存取權之後，請移至專業語音微調檔以開始使用。請參閱定價詳細資料。	請參閱語音範例。

深入了解神經文字轉換語音功能

文字轉換語音會使用深度神經網路，使電腦的聲音與人類的錄製內容幾乎無法區分。具有清楚的字組清晰度，神經文字轉換語音大幅降低使用者與 AI 系統互動時的聆聽疲勞。

口語的重音和語調稱為「韻律」。傳統文字轉換語音系統會將音序細分為由獨立模型控管的語言分析和原音預測兩個分離的步驟。這可能會導致語音合成結果悶沉且模糊。

以下是語音服務中神經文字轉換語音功能的詳細資訊，以及如何克服傳統文字轉換語音系統的限制：

實時語音合成：使用語音 SDK 或 REST API ，使用標準語音或自訂語音將文字轉換成語音。
長音訊的非同步合成：使用批次合成 API，以非同步方式合成超過 10 分鐘的文字轉換語音檔案 (例如有聲書或演講)。不同於透過語音 SDK 或語音轉換文字 REST API 所執行的合成，回應不會即時傳回。預期方式是，系統會非同步傳送要求、輪詢回應，然後在服務可提供合成音訊時進行下載。
標準語音：Azure AI 語音會使用深度神經網路來克服傳統語音合成在口語中壓力和語調的限制。韻律預測和語音合成會同時發生，如此可產生更流暢且自然發音的輸出。每個標準語音模型都可在 24 kHz 頻率和高保真 48 kHz 頻率下使用。您可以使用神經語音：
- 讓與聊天機器人和語音助理的互動更加自然且吸引人。
- 將電子書之類的數位文字轉換成有聲書。
- 增強汽車內導覽系統。
如需標準 Azure AI 語音神經語音的完整清單，請參閱語音服務的語言和語音支援。
使用 SSML 改善文字轉換語音輸出：語音合成標記語言 (SSML) 是用來自訂文字轉換語音輸出的 XML 標記語言。使用 SSML 時，您可以調整音高、加入停頓、改善發音、變更說話速度、調整音量，以及將多個聲音屬性設至單一文件。

您可以使用 SSML，定義自己的語彙或切換為不同的說話風格。使用多語言語音，您也可以透過 SSML 調整使用的語言。若要改善案例的語音輸出，請參閱使用語音合成標記語言來改善合成和使用音訊內容建立工具的語音合成。
發音嘴型：發音嘴型為語音觀察到的關鍵姿勢，包括在發出特定的音位時，嘴唇、下顎與舌頭的位置。發音嘴型與語音和音素關聯密切。

藉由在語音 SDK 中使用發音嘴型事件，您可以產生臉部動畫資料。此資料可以用來在讀唇對話、教育、娛樂和客戶服務中製作臉部的動畫。目前僅 en-US (美國英文) 神經語音支援發音嘴型。

注意

除了 Azure AI 語音神經（非 HD）語音之外，您也可以使用 Azure AI 語音高清（HD）語音和 Azure OpenAI 神經（HD 和非 HD）語音。 HD 語音為更多功能的案例提供更高的品質。

某些語音不支援所有語音合成標記語言（SSML）標記。這包括類神經文字到語音的 HD 語音、個人語音，以及內嵌語音。

如需 Azure AI 語音高定義（HD）語音，請查看這裡的 SSML 支援。
如需個人語音，您可以在這裡找到 SSML 支援。
如需內嵌語音，請查看這裡的 SSML 支援。

開始使用

若要開始使用文字轉換語音，請參閱快速入門。文字轉換語音可透過語音 SDK、REST API 和語音 CLI 取得。

提示

若要使用無程式碼方法來進行文字轉換語音，請嘗試 Speech Studio 中的音訊內容建立工具。

範例指令碼

您可以在 GitHub 上取得文字轉換語音的範例程式碼。這些範例涵蓋最受歡迎的程式設計語言中的文字轉換語音：

自訂語音

除了標準語音之外，您還可以建立產品或品牌特有的自定義語音。自定義語音是一個總稱，包括專業語音微調和個人語音。只需要少數音訊檔案和相關聯的轉譯即可開始使用。如需詳細資訊，請參閱專業語音微調檔。

定價注意事項

可計費字元

使用文字轉換語音功能時，轉換成語音的每個字元都會計費，包括標點符號。雖然 SSML 文件本身無法計費，但用來調整文字轉換成語音方式的選擇性元素，例如語音和音調，會算作可計費字元。以下為可計費的清單：

在要求的 SSML 本文中傳遞至文字轉換語音功能的文字
在 SSML 格式要求本文文字欄位內的所有標記，除了 <speak> 和 <voice> 標記以外
字母、標點符號、空格、索引標籤、標記和所有空白字元
以 Unicode 定義的每個字碼指標

如需詳細資訊，請參閱語音服務定價。

重要

每個中文字元都以兩個字元計費，包括日文使用的漢字、韓文中使用的漢字，或其他語言使用的漢字。

自訂語音的模型訓練和託管時間

自定義語音訓練和服務託管都是以小時計算，並以秒計費。如需計費單價，請參閱語音服務定價。

專業語音微調時間是由「計算小時」測量（測量機器運行時間的單位）。一般而言，在訓練語音模型時，兩個運算工作會平行執行。因此，計算的計算時數會比實際的訓練時間長。對於專業語音微調，通常需要 20 到 40 個計算小時來定型單一樣式語音，大約 90 個計算小時來訓練多樣式語音。專業語音微調時間會以 96 個計算時數上限計費。因此，如果語音模型是以 98 個計算時數來訓練，則只會向您收取 96 個計算時數的費用。

自訂語音端點主機托管是以實際時間（小時）來衡量。每個端點的裝載時間 (小時) 是在每天 00:00 UTC 時計算前 24 小時的時間。例如，如果端點在第一天處於作用中達 24 小時，則會在第二天的 00:00 UTC 按 24 小時進行計費。如果端點在當天新建立或暫停，則會針對其累積運行時間計費，直到第二天 00：00 UTC 為止。如果端點目前未裝載，則不會計費。除了每天 00:00 UTC 的每日計算之外，在刪除或暫停端點時也會立即觸發計費。例如，針對在 12 月 1 日 08:00 UTC 所建立的端點，裝載小時會在 12 月 2 日 00:00 UTC 和 12 月 3 日 00:00 UTC，將會分別計算為 16 小時和 24 小時。如果使用者在 12 月 3 日 16:30 UTC 暫停裝載端點，則會計算 12 月 3 日 00:00 至 16:30 UTC (16.5 小時) 的持續時間，以進行計費。

個人版語音

當您使用個人語音功能時，系統會針對設定檔儲存體和合成計費。

配置文件記憶體：建立個人語音設置檔之後，系統才會向您收取費用，直到從系統移除為止。計費單位是按每天每個語音。如果語音記憶體持續不到 24 小時，仍會按一整天計費。
合成：按每字元計費。如需可計費字元的詳細資訊，請參閱上述可計費字元。

文字轉換語音虛擬人偶

當您使用文字到語音轉換虛擬人偶功能時，費用會根據視訊輸出的長度每秒計費。不過，針對實時虛擬人偶，費用會根據虛擬人偶作用中的時間，每秒計費，無論它是說話還是保持無聲。若要將即時虛擬人偶使用量的成本優化，請參閱虛擬人偶聊天範例程式代碼中提供的「使用本機視訊進行閑置」秘訣。

自定義文字到語音虛擬人偶訓練是以「計算時數」（計算機運行時間）測量，並按每秒計費。定型持續時間會根據您要訓練的資料量而有所不同。定型自定義虛擬人偶通常需要 20-40 個計算小時。虛擬人偶定型時間會以96個計算時數上限計費。因此，在 98 個計算時數中定型虛擬人偶模型時，您只需支付 96 個計算時數的費用。

每個端點的虛擬人偶託管會按每秒計費。您可以暫停端點以節省成本。如果您想要暫停端點，您可以直接將其刪除。若要再次使用它，請重新部署端點。

監視 Azure 文字轉換語音計量

監視與文字轉換語音服務相關聯的重要計量，對於管理資源使用狀況和控制成本至關重要。本節將引導您瞭解如何在 Azure 入口網站中尋找使用資訊，並提供重要計量的詳細定義。如需 Azure 監視器計量的詳細資訊，請參閱 Azure 監視器計量概觀。

如何在 Azure 入口網站中尋找使用方式資訊

若要有效地管理 Azure 資源，請務必定期存取及檢閱使用方式資訊。以下說明如何尋找使用方式資訊：

移至 Azure 入口網站，然後以 Azure 帳戶登入。
瀏覽至 [資源]，然後選取您想要監視的資源。
從左側功能表中選取 [監視] 底下的 [計量]。
自訂計量檢視。

您可以依資源類型、計量類型、時間範圍和其他參數篩選資料，以建立符合監視需求的自訂檢視。此外，您可以選取 [儲存至儀表板]，即可輕鬆存取常用計量，將計量檢視儲存至儀表板。
設定警示。

若要更有效地管理使用方式，請瀏覽至左側功能表中的 [監視] 底下的 [警示] 索引標籤，即可設定警示。警示可在使用方式達到特定閾值時通知您，協助防止非預期的成本。

計量的定義

下表摘要說明 Azure 文字到語音轉換的重要計量。

計量名稱	說明
合成字元	追蹤轉換成語音的字元數，包括標準語音和自定義語音。如需可計費字元的詳細資訊，請參閱可計費字元。
合成的影片秒數	測量合成影片的總持續時間，包括批次虛擬人偶合成、即時虛擬人偶合成和自訂虛擬人偶合成。
虛擬人偶模型裝載秒數	追蹤自訂虛擬人偶模型裝載的總時間 (以秒為單位)。
語音模型裝載時數	追蹤您自訂語音模型託管的總時數。
語音模型訓練分鐘數	測量訓練自定義語音模型所需的總時間，以分鐘計算。

參考文件

負責 AI

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。