什麼是自定義語音？

2025-06-02

自訂語音是文字到語音功能，可讓您為您的應用程式建立一種自定義的合成語音。使用自訂語音，您可以藉由提供人類語音範例作為微調數據，為您的品牌或角色創建高度自然的聲音。

重要

根據資格和使用準則，自定義語音存取受到限制。要求輸入表單的存取權。

現成可用的文字轉語音可以使用每個支援語言的標準語音。如果不需要唯一的語音，標準語音在大部分文字到語音案例中都運作良好。

自定義語音是以類神經文字語音技術和多語系、多說話者、通用模型為基礎。您可以建立具有豐富說話樣式或可跨語言調整的合成語音。自定義語音的逼真自然聲音可以代表品牌、個人化機器，並允許使用者與應用程式交談互動。請參閱自定義語音支援的語言。

如何運作？

若要建立自定義語音，請使用 Speech Studio 上傳錄製的音訊和對應的腳本、將模型定型，以及將語音部署至自定義端點。

建立絕佳的自定義語音需要在每個步驟中仔細進行品質控制，從語音設計和數據準備，到將語音模型部署到您的系統。

在您開始使用 Speech Studio 之前，以下是一些考量：

使用角色簡介文件來為您的品牌設計代表語音角色。此文件會定義語音功能及語音角色等要素。這有助於引導創建自定義語音模型的流程，包括定義台詞、選擇您的配音演員、進行訓練和語音調校。
選取錄製腳本以代表您語音的使用者案例。例如，如果您要建立客戶服務機器人，可以使用機器人對話中的片語作為錄製腳本。請在腳本中納入不同的句子類型，包括陳述句、疑問句和感嘆句。

以下是在Speech Studio中建立自訂語音的步驟概觀：

建立專案，以包含您的資料、語音模型、測試和端點。每個專案都是針對特定的國家/地區或區域和語言。如果您要建立多個語音，建議您為每個語音建立一個專案。
設定語音配音員。在您可以微調專業語音之前，您必須提交語音人才同意聲明的錄音。聲音人才聲明是聲音人才錄制的一段聲音，其中他們表示同意將其聲音數據用於專業語音微調。
以正確的格式準備微調數據。在專業品質的錄音室中擷取音訊錄製內容是個不錯的主意，可以取得高訊噪比。語音模型的質量取決於您的微調數據。一致的音量、語速、音調和語音表達方式是不可或缺的。
將語音模型定型。選取至少 300 個語句以建立自訂語音。上傳後，系統會自動執行一連串的資料品質檢查。若要組建高品質的語音模型，您應先修正任何錯誤後再重新提交。
測試您的語音。為您的語音模型準備測試指令碼，且需涵蓋應用程式的不同使用案例。建議在定型資料集內、外都使用指令碼，以便更全面地測試不同內容的品質。
在您的應用程式中部署和使用您的語音模型。

您可以微調、調整及使用自定義語音，就像使用標準語音一樣。即時將文字轉換成語音，或使用文字輸入來產生離線音訊內容。您會使用 REST API、語音 SDK 或 Speech Studio。

提示

請查看 GitHub 上語音 SDK 存放庫中的程式代碼範例，以瞭解如何在應用程式中使用自訂語音。

定型語音模型的風格和特性，取決定型所用之配音員的風格和特質。不過，當您對語音模型進行 API 呼叫以產生合成語音時，可以使用 SSML (語音合成標記語言) 進行數項調整。 SSML 是用於與文字轉換語音服務溝通，以將文字轉換成音訊的標記語言。您可以做出的調整包括變更音調、速率、聲調和發音校正。如果語音模型是以多種風格來組建，也可以使用 SSML 來轉換風格。

元件順序

自訂語音包含三個主要元件：文字分析器、類神經聲學模型和類神經語音編碼器。為了要從文字產生自然合成語音，首先會將文字輸入文字分析器，以音素序列的形式輸出。「音素」是聲音的基本單位，可區分特定語言中的字詞。音素序列會定義文字中提供的單字發音。

接下來，音素序列會進入神經原音模型，以預測定義語音訊號的原音特徵。原音特徵包括音色、說話風格、速度、音調和重音模式。最後，神經聲碼器會將原音特徵轉換成有聲聲波，以產生合成語音。

顯示自訂語音元件的流程圖。

神經文字轉換語音的語音模型會根據人聲的錄音樣本，使用深度神經網路進行定型。如需詳細資訊，請參閱本 Microsoft 部落格文章 (英文)。若要深入了解如何定型神經聲碼器的相關資訊，請參閱本 Microsoft 部落格文章 (英文)。

負責 AI

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。

分享方式：

什麼是自定義語音？

如何運作？

元件順序

負責 AI

下一步

意見反映

更多資源