什麼是自定義神經語音?
自定義神經語音 (CNV) 是文字到語音功能,可讓您為您的應用程式建立一種自定義的合成語音。 使用自定義神經語音,您可以藉由提供人類語音範例作為訓練數據,為您的品牌或字元建置高度自然的聲音。
現成可用的文字轉換語音可以與針對每個支援語言預先建置的神經語音搭配使用。 如果不需要唯一的語音,預先建置的神經語音在大部分文字到語音案例中都運作良好。
自定義神經語音是以類神經文字語音技術為基礎,以及多語系、多說話者、通用模型。 您可以建立豐富的口語風格或可調整跨語言的合成語音。 自定義神經語音的逼真自然聲音可以代表品牌、個人化機器,並允許使用者與應用程式交談互動。 請參閱自定義神經語音支持的語言。
如何運作?
若要建立自定義神經語音,請使用 Speech Studio 上傳錄製的音訊和對應的腳本、將模型定型,以及將語音部署至自定義端點。
提示
嘗試 自定義神經語音 (CNV) Lite 來示範和評估 CNV,然後再投資專業錄音來建立高質量的語音。
建立絕佳的自定義神經語音需要在每個步驟中仔細進行品質控制,從語音設計和數據準備,到將語音模型部署到您的系統。
在開始使用Speech Studio之前,以下是一些考慮:
- 使用角色簡短文件設計代表您品牌之語音的角色。 本檔會定義元素,例如語音的功能,以及語音背後的字元。 這有助於引導建立自定義神經語音模型的程式,包括定義腳本、選取您的語音人才、訓練和語音微調。
- 選取錄製腳本 來代表語音的使用者案例。 例如,如果您要建立客戶服務 Bot,您可以使用 Bot 交談中的片語作為錄製腳本。 在您的腳本中包含不同的句子類型,包括語句、問題和驚嘆號。
以下是在Speech Studio中建立自訂神經語音的步驟概觀:
- 建立專案 以包含您的數據、語音模型、測試和端點。 每個專案都是針對特定的國家/地區或區域和語言。 如果您要建立多個語音,建議您為每個語音建立專案。
- 設定語音人才。 您必須先提交語音配音員同意聲明的錄製內容,才能為神經語音定型。 語音配音員聲明是語音配音員的錄製內容,其中讀出他們同意使用其語音資料來將自訂語音模型定型的聲明。
- 以正確的格式準備定型數據。 在專業質量錄音室中擷取音頻錄製,以達到高訊號與雜訊比率是個好主意。 語音模型的品質取決於您的訓練數據。 需要一致的音量、說話速率、音調和表達方式的一致性。
- 訓練您的語音模型。 選取至少 300 個語句來建立自定義神經語音。 上傳數據質量檢查時會自動執行一系列數據質量檢查。 若要建置高質量的語音模型,您應該修正任何錯誤並再次提交。
- 測試您的聲音。 為語音模型準備測試文本,以涵蓋應用程式的不同使用案例。 最好在定型數據集內外使用腳本,讓您可以更廣泛地測試不同內容的品質。
- 在應用程式中部署及使用您的語音模型 。
您可以微調、調整及使用自定義語音,就像使用預先建置的神經語音一樣。 即時將文字轉換成語音,或使用文字輸入來產生離線音訊內容。 您可以使用 REST API、 語音 SDK 或 Speech Studio。
定型語音模型的風格和特性取決於用於訓練之語音人才的風格和錄音品質。 不過,當您對語音模型進行 API 呼叫以產生綜合語音時,可以使用 SSML(語音合成標記語言)進行數個調整。 SSML 是用於與文字轉換語音服務溝通,以將文字轉換成音訊的標記語言。 您可以所做的調整包括音調、速率、調音和發音更正。 如果語音模型是以多個樣式建置,您也可以使用 SSML 來切換樣式。
元件順序
自定義神經語音包含三個主要元件:文字分析器、類神經原音模型和類神經語音編碼器。 若要從文字產生自然合成語音,文字會先輸入文字分析器,以提供音素序列形式的輸出。 音素是一種基本的聲音單位,可區分一個單字與特定語言中的另一個字。 一連串的音素會定義文字中提供的文字發音。
接下來,phoneme 序列會進入類神經原音模型,以預測定義語音訊號的原音特徵。 聲場特徵包括音調、說話風格、速度、調音和壓力模式。 最後,神經語音編碼器會將聲場特徵轉換成可聽見的波,以便產生合成語音。
神經文字轉換語音的語音模型會根據人聲的錄音樣本,使用深度神經網路進行定型。 如需詳細資訊,請參閱 此 Microsoft 部落格文章。 若要深入了解神經 vocoder 的定型方式,請參閱 此 Microsoft 部落格文章。
遷移至自訂神經語音
如果您使用舊版的自定義語音(原定於 2024 年 2 月淘汰),請參閱 如何移轉至自定義神經語音。
負責 AI
AI 系統不僅包含技術,也包含使用它的人員、受其影響的人員,以及其部署所在的環境。 閱讀透明度資訊,了解在系統中負責任 AI 的使用和部署資訊。
- 自定義神經語音的透明度注意事項和使用案例
- 使用自訂神經語音的特性和限制
- 自定義神經語音的有限存取
- 負責部署合成語音技術的指導方針
- 語音人才的披露
- 披露設計指導方針
- 洩漏設計模式
- 文字轉換語音整合的管理辦法
- 自定義神經語音的數據、隱私權和安全性
下一步
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應