什麼是自訂文字轉換語音虛擬人偶？

自訂文字轉換語音虛擬人偶可讓您為您的應用程式建立自訂的一種合成對話虛擬人偶。透過自訂文字轉換語音虛擬人偶，您可以藉由提供所選動作項目的影片錄製內容資料，為您的產品或品牌建立獨特的自然虛擬人偶。如果您也會為同一個演員建立自訂神經語音，並將其用作虛擬人偶的聲音，則虛擬人偶會更逼真。

重要

自訂文字轉換語音虛擬人偶存取受限於資格和使用準則。要求輸入表單的存取權。

如何運作？

建立自訂文字轉換語音虛擬人偶需要至少 10 分鐘的影片錄製內容，虛擬人偶配音員作為訓練資料，您必須先取得動作配音員的同意。

重要

目前針對自訂文字轉換語音虛擬人偶，資料處理和模型訓練會手動完成。

在您開始使用之前，以下是一些考量：

您的使用案例：您是否要使用虛擬人偶來建立影片內容，例如訓練材料、產品簡介，或使用虛擬人偶作為虛擬銷售人員，用於與客戶的即時交談中？不同使用案例有一些錄製需求。

虛擬人偶的外觀： 自訂文字轉換語音虛擬人偶看起來與訓練資料中的虛擬人偶天賦相同，我們不支援自訂虛擬人偶模型的外觀，例如衣服、髮型等。因此，如果您的應用程式需要相同虛擬人偶的多個樣式，您應該準備每個樣式的訓練資料，因為虛擬人偶的每個樣式都會被視為單一虛擬人偶模型。

虛擬人偶的聲音： 自訂文字轉換語音虛擬人偶可以搭配預先建置的神經語音和自訂神經語音運作。為虛擬人偶配音員建立自訂神經語音，並將它與虛擬人偶搭配使用，將大幅增加虛擬人偶體驗的自然程度。

以下是建立自訂文字轉換語音虛擬人偶的步驟概觀：

取得同意影片： 取得同意聲明的影片錄製內容。同意聲明是虛擬人偶配音員閱讀語句的影片錄製內容，同意使用其影像和語音資料來將自訂文字訓練為語音虛擬人偶模型。
準備訓練資料： 確定影片錄製格式正確。最好是在專業品質的影片拍攝工作室中拍攝影片錄製，以取得乾淨的背景影像。產生的虛擬人偶品質嚴重取決於用於訓練的錄製影片。說話速率、身體姿勢、臉部表情、手勢、動作位置的一致性，以及影片錄製光源等因素，對於建立吸引人的自訂文字轉換語音虛擬人偶至關重要。
訓練虛擬人偶模型： 確認虛擬人偶配音員同意聲明之後，我們將開始將自訂文字轉換語音模型。此步驟目前由 Microsoft 手動完成。成功訓練模型之後，您會收到通知。
在您的應用程式中部署和使用您的虛擬人偶模型

自訂文字轉換語音虛擬人偶模型包含三個元件：文字分析器、語音轉換音訊合成器和文字轉換語音虛擬人偶影片轉譯器。

神經文字轉換語音語虛擬人偶模型會根據人類語音的錄音範例，使用深度神經網路進行訓練。支援預建語音和自訂神經語音的所有語言。

自訂文字轉換語音虛擬人偶可以搭配預先建置的神經語音或自訂神經語音作為虛擬人偶的語音運作。如需詳細資訊，請參閱虛擬人偶語音和語言。

自訂神經語音和自訂文字轉換語音虛擬人偶是不同的功能。您可以單獨或一起使用。如果您選擇一起使用它們，則必須分別申請自訂神經語音和自訂文字轉換語音虛擬人偶，並且分別向自訂神經語音和自訂文字轉換語音虛擬人偶收費。如需詳細資訊，請參閱定價頁面。此外，如果您打算將自訂神經語音搭配文字轉換語音虛擬人偶使用，則必須將自訂神經語音模型部署或複製到其中一個虛擬人偶支援的區域。