共用方式為


什麼是自訂語音?

有了自訂語音,您即可評估與提高應用程式和產品的語音辨識正確性。 自訂語音模型可用於即時語音轉換文字語音翻譯批次轉錄

開箱即用的語音辨識功能運用通用語言模型作為基礎模型。這個功能是以 Microsoft 擁有的資料訓練,且能夠反映常用的口語語言。 基礎模型會預先訓練,其中包含代表各種常見網域的方言和注音符號。 當您提出語音辨識要求時,系統預設會使用每個支援語言的最新基礎模型。 基礎模型在大部分的語音辨識案例中運作良好。

自訂模型可用於增強基礎模型,藉由提供文字資料來訓練模型,以改善應用程式特有領域限定的詞彙辨識。 它也可以藉由提供音訊資料與參考轉錄內容,來改善應用程式特定音訊條件的辨識。

您也可以在資料遵循模式時使用結構化文字訓練模型,以指定自訂發音,以及使用自訂反向文字正規化、自訂重寫和自訂不雅內容篩選來自訂顯示文字格式。

運作方式為何?

有了自訂語音後,您就可以上傳自己的資料、測試與訓練自訂模型、比較模型之間的正確性,以及將模型部署至自訂端點。

此圖表會醒目提示 Speech Studio 自訂語音區域的組成元件。

如需有關上圖步驟順序的詳細資訊,請參閱以下內容:

  1. 建立專案並選擇模型。 使用您在 Azure 入口網站中建立的語音資源。 如果您使用音訊數據來定型自定義模型,請在具有專用硬體的區域中選取服務資源,以定型音頻數據。 如需詳細資訊,請參閱區域資料表中的註腳。

  2. 上傳測試資料。 上傳測試資料以評估您應用程式、工具和產品的語音轉換文字供應項目。

  3. 將模型訓練。 提供書面文字轉錄內容與相關文字,以及對應的音訊資料。 您可以自由選擇是否要在訓練前後測試模型,但建議進行這個步驟。

    附註

    會根據自訂語音模型使用量和端點託管向您收取費用。 如果基本模型是在 2023 年 10 月 1 日及以後建立的,則還會向您收取自訂語音模型訓練的費用。 如果基本模型是在 2023 年 10 月之前建立的,則不會向您收取訓練費用。 如需詳細資訊,請參閱 Azure AI 語音價格語音轉換文字 3.2 遷移指南中的採用價格部分

  4. 測試辨識品質。 使用 Speech Studio 播放上傳的音訊,並檢查測試資料的語音辨識品質。

  5. 以量化方式測試模型。 評估及提高語音轉換文字模型的正確性。 語音服務會提供以量化方式執行的字詞錯誤率 (WER),以便您判斷是否需要其他訓練。

  6. 部署模型。 若您滿意測試結果,即可將模型部署至自訂端點。 除了批次轉錄外,您必須部署自訂端點以使用自訂語音模型。

    秘訣

    無需託管部署端點,也能將自訂語音與批次轉錄 API 搭配使用。 如果自訂語音模型僅用於批次轉錄,則可以節省資源。 如需詳細資訊,請參閱語音服務價格

選擇您的模型

使用自訂語音模型的方法有幾個:

  • 基本模型針對各種案例提供現成可用的語音辨識。 基底模型會定期更新,以改善精確度和品質。 建議您如果使用基底模型,請使用最新的預設基底模型。 如果必要的自訂功能僅適用於較舊的模型,則您可以選擇較舊的基底模型。
  • 自訂模型會增強基底模型,以包含跨自訂定義域所有區域共用的定義域特定詞彙。
  • 當自訂區域有多個區域,且每個區域都有特定的詞彙時,可以使用多個自訂模型。

有一建議方式可查看基本模型是否足夠,就是分析從基本模型產生的謄寫,並將其與同一音訊的人類產生文字記錄進行比較。 您可以比較文字記錄並取得字組錯誤率 (WER) 分數。 如果 WER 分數很高,建議訓練自訂模型來辨識未正確識別的字組。

如果詞彙會因領域區域而異,建議使用多個模型。 例如,Olympic 批註器會報告各種事件,每個事件都與自己的詞彙相關聯。 由於每個 Olympic 事件詞彙與其他詞彙皆有很大差異,因此建置事件特有的自訂模型會限制相對於該特定事件的語句資料,藉此提高精確度。 因此,模型不需要詳細檢查不相關的資料,也能進行比對。 無論如何,定型仍然需要各種不同的定型資料。 包括不同口音、性別、年齡等等各種留言者的音訊。

模型穩定性和生命週期

使用自訂語音部署至端點的基本模型或自訂模型已固定,直到您決定更新為止。 即使在釋出新的基本模型時,語音辨識正確性和品質仍會保持一致。 這可讓您鎖定特定模型的行為,直到您決定使用較新的模型為止。

不論您是定型自己的模型還是使用基底模型的快照集,您都可以在有限的時間內使用模型。 如需詳細資訊,請參閱模型和端點生命週期

負責任 AI

AI 系統不僅包含技術,也包含使用該技術的人員、受其影響的人員及部署的環境。 閱讀透明度資訊,了解在系統中負責任 AI 的使用和部署資訊。

後續步驟