共用方式為


文字轉換語音常見問題集

本文回答關於文字轉換語音 (TTS) 功能的常見問題集。 如果您在這裡找不到問題的解答,請參閱其他支援選項

一般

文字轉換語音如何計費?

文字轉換語音使用量會依字元計費。 查看定價注意事項中可計費字元的定義。

文字轉換語音合成要求的費率限制為何?

文字轉換語音合成費率會在收到更多要求時自動調整。 預設費率限制是針對每個語音資源所設定。 費率會隨著業務理由而調整,且費率限制增加不會產生額外費用。 如需詳細資料,請參閱語音服務配額和限制

我們如何向終端使用者揭露語音是合成語音?

建議每位使用者在使用文字轉換語音功能時遵循我們的管理辦法。 有數種方式可以揭露語音的合成本質,包括隱含和明確署名。 請參閱公開設計指引

如何減少語音應用程式的延遲?

我們提供數個秘訣,可讓您降低延遲,並為您的使用者帶來最佳效能。 請參閱使用語音 SDK 降低語音合成延遲

文字轉換語音支援哪些輸出音訊格式?

Azure AI 文字轉換語音支援各種常用取樣率的串流和非串流音訊格式。 系統會建立所有 TTS 標準語音,以支援具有 48 kHz 和 24 kHz 的高精確度音訊輸出。 可視需要重新取樣音訊以支援其他速率。 請參閱音訊輸出

是否可以自訂語音來強調特定字組?

視地區設定而定,支援調整部分語音的強調。 請參閱強調標記

我們是否可以針對每個情緒有多個強度,例如傷心、稍微傷心等等?

視地區設定而定,支援調整部分語音的風格程度。 請參閱 mstts:express-as 標記

Viseme 識別碼與嘴巴形狀之間是否有對應?

音訊內容建立

如何參考我在程式碼中於音訊內容建立平台上建立的語彙檔案?

首先,您可以在音訊內容建立上開啟語彙檔案,並取得檔案路徑中位於 “?fileKind=CustomLexiconFile” 之前的語彙檔案識別碼。 例如,如果檔案路徑為 https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile,則語彙檔案識別碼為 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c。 然後,將參考此語彙的檔案切換為音訊內容建立上的 SSML 格式。 在 SSML 檔案中,找出 <!--ID=FCB xml 節點,您可以在其中根據提及的檔案識別碼找到語彙檔案的 URI。 最後,使用程式碼中的 SSML 語彙元素來參考語彙檔案 URI 連結。 例如,如果您找到 XML 節點 <!--ID=FCB5B6FB566-33CA-4B68-BEAF-B013C53B3368;Version=1|{"Files":{"6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c":{"FileKind":"CustomLexiconFile","FileSubKind":"CustomLexiconFile","Uri":"https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml"}}},則可以取得語彙檔案 URI https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml

專業語音微調

專業語音微調需要多少數據?

您需要至少 300 行錄音(或大約 30 分鐘的語音)訓練數據,才能進行專業語音微調。 我們建議 2,000 行錄製 (或大約 2-3 小時的語音),以建立針對生產環境的語音。 如需腳本選取準則,請參閱錄製自訂語音範例

我們可以在同一組訓練資料中包含重複的文字句子嗎?

否。 服務會標示重複的句子,並只保留第一個匯入的句子。 如需腳本選取準則,請參閱錄製自訂語音範例

我們可以在同一組訓練資料中包含多個樣式嗎?

建議您在一組訓練資料中保持樣式一致。 如果樣式不同,請將句子放入不同的訓練集。 在此情況下,請考慮使用專業語音微調的多樣式訓練方法。 如需腳本選取準則,請參閱錄製自訂語音範例

透過 SSML 切換樣式是否適用於自訂語音?

透過 SSML 切換樣式適用於多樣式標準語音和多樣式自定義語音。 透過多樣式訓練,您可以建立以不同樣式說話的語音,也可以透過 SSML 調整這些樣式。

跨語言語音如何適用於具有不同發音結構和組件的語言?

句子結構和發音自然會因英文和日文等語言而有所不同。 每個神經語音都會使用母語的語音配音員錄製的音訊資料來訓練。 針對跨語言語音,我們會轉移音調等主要功能,使其聽起來像原本的說話者,並保留正確的發音。 例如,跨語言語音會使用原生方式說出日文,而聽起來仍像母語的英文說話者 (但不會一樣完全)。

我可以使用專業語音微調來自定義網域的發音嗎?

專業語音微調可讓您為企業建立品牌語音。 您也可以針對您的領域進行最佳化。 建議您在訓練資料中包含特定領域範例,以提升自然性。 不過,發音預設是由語音服務所定義。 我們不支援專業語音微調的發音自定義。 如果您想要自訂語音的發音,請使用 SSML。 請參閱使用語音合成標記語言 (SSML) 發音

在訓練之後,我可以再次訓練語音嗎?

您可以再次訓練。 每個定型都會建立新的語音模型。 您需支付每個定型的費用。

模型版本是否與引擎版本相同?

否。 模型版本與引擎版本不同。 模型版本是指模型的訓練配方版本,會因支援的功能和模型訓練時間而有所不同。 Azure AI 服務文字轉換語音引擎會不時更新,以擷取定義語言發音的最新語言模型。 訓練語音之後,您可以藉由更新至最新的引擎版本,將語音套用至新的語言模型。 當新的引擎可供使用時,會提示您更新神經語音模型。 請參閱更新語音模型的引擎版本

可以使用 Azure 原則或其他功能來限制訓練次數嗎? 或是否有任何方法可避免訓練錯誤?

如果您想要限制訓練的權限,可以限制使用者角色和存取權。 請參閱語音資源的角色型存取控制

Microsoft 是否可以新增機制以在建立語音時防止未經授權的使用或誤用語音?

語音模型只能由您用自己的權杖使用。 Microsoft 也不會使用您的資料。 請參閱 資料、隱私權和安全性。 您也可以要求將浮水印新增至您的語音,以保護模型。 請參閱 Microsoft Azure 神經 TTS 導入合成語音識別的浮水印演算法

您是否有任何關於合約或與語音演員交涉的秘訣?

我們沒有任何關於合約的建議,客戶和語音配音員可以交涉條款。 不過,您應該確定語音配音員了解文字轉換語音功能,包含潛在風險,並提供明確同意,以在合約和口頭聲明中建立其語音合成版本。 語音配音員公開資訊

我們需要將語音配音員的書面權限回傳給 Microsoft 嗎?

Microsoft 不需要書面權限,但您必須取得語音配音員的同意。 語音配音員也需要錄製同意聲明,且必須先上傳至 Speech Studio,才能開始訓練。 請參閱 設定專業語音微調的語音人才