什麼是自定義語音？

發行項
01/22/2024

透過自訂語音，您可以評估及改善應用程式和產品的語音辨識精確度。自訂語音模型可用於即時語音轉換文字、語音翻譯和批次謄寫。

開箱即用的語音辨識功能運用通用語言模型作為基礎模型。這個功能是以 Microsoft 擁有的資料定型，且能夠反映常用的口語語言。基礎模型會預先定型，其中包含代表各種常見網域的方言和注音符號。當您提出語音辨識要求時，預設會使用每個支持語言的最新基底模型。基礎模型在大部分的語音辨識案例中運作良好。

自定義模型可用來增強基底模型，藉由提供文字數據來定型模型，以改善應用程式特有的領域特定詞彙的辨識。它也可以藉由提供音訊數據與參考轉譯，來改善應用程式特定音訊條件的辨識。

當數據遵循模式時，您也可以使用結構化文字來定型模型、指定自定義發音，以及使用自定義反向文字正規化、自定義重寫和自定義粗話篩選來自定義顯示文字格式。

如何運作？

透過自訂語音，您可以上傳自己的數據、測試及定型自定義模型、比較模型之間的精確度，以及將模型部署至自定義端點。

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

以下是上圖所示步驟順序的詳細資訊：

建立項目並選擇模型。使用您在 Azure 入口網站中建立的語音資源。如果您使用音訊數據來定型自定義模型，請選擇具有專用硬體的語音資源區域來定型音訊數據。如需詳細資訊，請參閱 regions 數據表中的腳註。
上傳測試數據。上傳測試資料以評估您應用程式、工具和產品的語音轉換文字供應項目。
測試辨識品質。使用 Speech Studio 播放上傳的音訊，並檢查測試數據的語音辨識品質。
以量化方式測試模型。評估及提高語音轉換文字模型的精確度。語音服務會提供以量化方式執行的字詞錯誤率 (WER)，以便您判斷是否需要其他定型。
定型模型。提供書面文字記錄和相關文字，以及對應的音訊數據。在定型前後測試模型是選擇性的，但建議使用。

注意

您需支付自定義語音模型使用量和端點裝載的費用。如果基底模型是在 2023 年 10 月 1 日和更新版本建立的，您也將需支付自定義語音模型定型的費用。如果基底模型是在 2023 年 10 月之前建立的，則不會向您收取定型費用。如需詳細資訊，請參閱語音轉換文字 3.2 移轉指南中的 Azure AI 語音定價和適應費用一節。
部署模型。一旦您滿意測試結果，請將模型部署至自定義端點。除了批次轉譯之外，您必須部署自定義端點以使用自定義語音模型。

提示

裝載的部署端點不需要搭配 Batch 轉譯 API 使用自定義語音。如果自訂語音模型僅用於批次謄寫，則可以節省資源。如需詳細資訊，請參閱語音服務定價。

負責 AI

AI 系統不僅包含技術，也包含使用它的人員、受其影響的人員，以及其部署所在的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。

什麼是自定義語音？

如何運作？

負責 AI

下一步

其他資源