什麼是自訂神經語音?
自訂神經語音 (CNV) 是一種文字轉換語音功能,讓您能夠為應用程式建立獨特的自訂合成語音。 使用自訂神經語音,您可以透過提供人類語音樣本作為定型資料,為您的品牌或角色打造發音極為自然的語音。
現成可用的文字轉換語音可以與針對每個支援語言預先建置的神經語音搭配使用。 如果不需要獨特的語音,預先建置的神經語音在大多數的文字轉換語音案例中都能良好運作。
自訂神經語音是以神經文字轉換語音技術及多語系、多說話者、通用模型為基礎。 您可以建立具有豐富說話樣式或可跨語言調整的合成語音。 自訂神經語音的真實自然發音可以代表品牌、擬人化機器,並可讓使用者與應用程式有交談上的互動。 請參閱自訂神經語音的支援語言。
如何運作?
若要建立自訂神經語音,請使用 Speech Studio 上傳錄製的音訊和對應的腳本、將模型定型,以及將語音部署至自訂端點。
提示
請先嘗試使用自訂神經語音 (CNV) 精簡版來示範及評估 CNV,然後再投資專業錄製內容,以建立高品質的語音。
要建立絕佳的自訂神經語音,必須在每個步驟中謹慎控制,包括語音設計和資料準備,以及將語音模型部署到您的系統。
在您開始使用 Speech Studio 之前,以下是一些考量:
- 使用角色簡介文件來為您的品牌設計代表語音角色。 此文件會定義語音功能及語音角色等要素。 這可引導您完成建立自訂神經語音模型的程序,包括定義腳本、選定語音配音員、定型和語音微調。
- 選取錄製腳本以代表您語音的使用者案例。 例如,如果您要建立客戶服務機器人,可以使用機器人對話中的片語作為錄製腳本。 請在腳本中納入不同的句子類型,包括陳述句、疑問句和感嘆句。
以下是在 Speech Studio 中建立自訂神經語音的步驟概觀:
- 建立專案,以包含您的資料、語音模型、測試和端點。 每個專案都是針對特定的國家/地區或區域和語言。 如果您要建立多個語音,建議您為每個語音建立一個專案。
- 設定語音配音員。 您必須先提交語音配音員同意聲明的錄製內容,才能為神經語音定型。 語音配音員聲明是語音配音員的錄製內容,其中讀出他們同意使用其語音資料來將自訂語音模型定型的聲明。
- 以正確的格式來準備定型資料。 在專業品質的錄音室中擷取音訊錄製內容是個不錯的主意,可以取得高訊噪比。 語音模型的品質主要仰賴於您的定型資料。 一致的音量、語速、音調和語音表達方式是不可或缺的。
- 將語音模型定型。 請選取至少 300 個語句,才能建立自訂神經語音。 上傳後,系統會自動執行一連串的資料品質檢查。 若要組建高品質的語音模型,您應先修正任何錯誤後再重新提交。
- 測試您的語音。 為您的語音模型準備測試指令碼,且需涵蓋應用程式的不同使用案例。 建議在定型資料集內、外都使用指令碼,以便更全面地測試不同內容的品質。
- 在您的應用程式中部署和使用您的語音模型。
您可以微調、調整及使用自訂語音,就像使用預先建置的神經語音一樣。 即時將文字轉換成語音,或使用文字輸入來產生離線音訊內容。 您會使用 REST API、語音 SDK 或 Speech Studio。
提示
請查看 GitHub 上 語音 SDK 存放庫 中的程式碼範例,以了解如何在應用程式中使用自訂神經語音。
定型語音模型的風格和特性,取決定型所用之配音員的風格和特質。 不過,當您對語音模型進行 API 呼叫以產生合成語音時,可以使用 SSML (語音合成標記語言) 進行數項調整。 SSML 是用於與文字轉換語音服務溝通,以將文字轉換成音訊的標記語言。 您可以做出的調整包括變更音調、速率、聲調和發音校正。 如果語音模型是以多種風格來組建,也可以使用 SSML 來轉換風格。
元件順序
自訂神經語音包括三個主要元件:文字分析器、神經原音模型,以及神經聲碼器。 為了要從文字產生自然合成語音,首先會將文字輸入文字分析器,以音素序列的形式輸出。 「音素」是聲音的基本單位,可區分特定語言中的字詞。 音素序列會定義文字中提供的單字發音。
接下來,音素序列會進入神經原音模型,以預測定義語音訊號的原音特徵。 原音特徵包括音色、說話風格、速度、音調和重音模式。 最後,神經聲碼器會將原音特徵轉換成有聲聲波,以產生合成語音。
神經文字轉換語音的語音模型會根據人聲的錄音樣本,使用深度神經網路進行定型。 如需詳細資訊,請參閱本 Microsoft 部落格文章 (英文)。 若要深入了解如何定型神經聲碼器的相關資訊,請參閱本 Microsoft 部落格文章 (英文)。
負責 AI
AI 系統不僅包含技術,也包含使用該技術的人員、受其影響的人員及部署的環境。 閱讀透明度資訊,了解在系統中負責任 AI 的使用和部署資訊。
- 自訂神經語音的透明度注意事項和使用案例
- 使用自訂神經語音的特性和限制
- 限制存取自訂神經語音
- 負責部署合成語音技術的指導方針
- 語音配音員公開
- 公開設計指導方針
- 公開設計模式
- 文字轉換語音整合的管理辦法
- 自訂神經語音資料、隱私權和安全性