什麼是自定義語音?

透過自訂語音,您可以評估及改善應用程式和產品的語音辨識精確度。 自訂語音模型可用於即時語音轉換文字語音翻譯批次謄寫

開箱即用的語音辨識功能運用通用語言模型作為基礎模型。這個功能是以 Microsoft 擁有的資料定型,且能夠反映常用的口語語言。 基礎模型會預先定型,其中包含代表各種常見網域的方言和注音符號。 當您提出語音辨識要求時,預設會使用每個 支持語言 的最新基底模型。 基礎模型在大部分的語音辨識案例中運作良好。

自定義模型可用來增強基底模型,藉由提供文字數據來定型模型,以改善應用程式特有的領域特定詞彙的辨識。 它也可以藉由提供音訊數據與參考轉譯,來改善應用程式特定音訊條件的辨識。

當數據遵循模式時,您也可以使用結構化文字來定型模型、指定自定義發音,以及使用自定義反向文字正規化、自定義重寫和自定義粗話篩選來自定義顯示文字格式。

如何運作?

透過自訂語音,您可以上傳自己的數據、測試及定型自定義模型、比較模型之間的精確度,以及將模型部署至自定義端點。

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

以下是上圖所示步驟順序的詳細資訊:

  1. 建立項目 並選擇模型。 使用您在 Azure 入口網站 中建立的語音資源。 如果您使用音訊數據來定型自定義模型,請選擇具有專用硬體的語音資源區域來定型音訊數據。 如需詳細資訊,請參閱 regions 數據表中的腳註。
  2. 上傳測試數據。 上傳測試資料以評估您應用程式、工具和產品的語音轉換文字供應項目。
  3. 測試辨識品質使用 Speech Studio 播放上傳的音訊,並檢查測試數據的語音辨識品質。
  4. 以量化方式測試模型。 評估及提高語音轉換文字模型的精確度。 語音服務會提供以量化方式執行的字詞錯誤率 (WER),以便您判斷是否需要其他定型。
  5. 定型模型。 提供書面文字記錄和相關文字,以及對應的音訊數據。 在定型前後測試模型是選擇性的,但建議使用。

    注意

    您需支付自定義語音模型使用量和 端點裝載的費用。 如果基底模型是在 2023 年 10 月 1 日和更新版本建立的,您也將需支付自定義語音模型定型的費用。 如果基底模型是在 2023 年 10 月之前建立的,則不會向您收取定型費用。 如需詳細資訊,請參閱語音轉換文字 3.2 移轉指南中的 Azure AI 語音定價和適應費用一節。

  6. 部署模型。 一旦您滿意測試結果,請將模型部署至自定義端點。 除了批次轉譯之外,您必須部署自定義端點以使用自定義語音模型。

    提示

    裝載的部署端點不需要搭配 Batch 轉譯 API 使用自定義語音。 如果自訂語音模型僅用於批次謄寫,則可以節省資源。 如需詳細資訊,請參閱 語音服務定價

負責 AI

AI 系統不僅包含技術,也包含使用它的人員、受其影響的人員,以及其部署所在的環境。 閱讀透明度資訊,了解在系統中負責任 AI 的使用和部署資訊。

下一步