使用 Azure AI 影片索引器自定義語言模型

重要

由於 Azure 媒體服務 淘汰公告,Azure AI 影片索引器會宣告 Azure AI 影片索引器功能調整。 請參閱 Azure 媒體服務 (AMS) 淘汰 的相關變更,以瞭解 Azure AI 影片索引器帳戶的意義。 請參閱準備AMS淘汰:VI更新和移轉指南

Azure AI 影片索引器透過與 Microsoft 自定義語音服務整合支援自動語音辨識。 您可以上傳自適性文字來自定義語言模型。 此文字來自您想要引擎用來調整其詞彙的網域。 定型模型之後,會辨識在適應文字中顯示的新單字,假設預設發音,而語言模型會學習新的可能文字序列。 請參閱 Azure AI 影片索引器語言 所支援的清單,以支援的語言顯示

例如, “Kubernetes” (在 Azure Kubernetes 服務的內容中),是高度特定的單字。 由於此字是 Azure AI 影片索引器的新功能,因此可辨識為 「社群」。 您需要將模型定型,才能將其辨識為 “Kubernetes”。 在其他情況下,這些字存在,但語言模型並不預期它們會出現在特定內容中。 例如, 「容器服務」 不是非特定語言模型可辨識為特定單字組的 2 字序列。

自訂語言模型的方式有兩種:

  • 選項 1:編輯 Azure AI 影片索引器所產生的文字記錄。 藉由編輯和更正文字記錄,您將訓練語言模型,以在未來提供改良的結果。
  • 選項 2:上傳文字檔來定型語言模型。 上傳檔案可以包含單字清單,因為您希望它們出現在影片索引器文字記錄中,或是句子和段落中自然包含的相關單字。 由於使用后一種方法取得較佳的結果,因此建議上傳檔案包含與您內容相關的完整句子或段落。

重要

請勿在上傳檔案中包含目前不正確地轉譯的字詞或句子(例如 「社群」),因為這樣會否定預期的影響。 只包含您想要出現的字組(例如“Kubernetes”。

自定義語言模型的最佳做法

Azure AI 影片索引器會根據單字組合的機率學習,因此最好學習:

  • 提供足夠的真實句子範例,因為它們會被說出來。
  • 每行只放置一個句子,而不是更多。 否則,系統會跨句子學習機率。
  • 可以把一個單字當成句子來提升別人的字,但系統最好從完整的句子中學習。
  • 如果可能的話,在引進新單字或縮寫時,請在完整句子中提供盡可能多的用法範例,以盡可能提供系統的內容。
  • 嘗試放置數個適應選項,並查看它們如何為您運作。
  • 避免重複完全相同的句子多次。 它可能會對其餘的輸入產生偏差。
  • 避免包含不常見的符號 (~, # @ % &) ,因為它們會被捨棄。 其出現的句子也會被捨棄。
  • 避免放置太大的輸入,例如數十萬個句子,因為這樣做會稀釋提升的效果。