使用 Azure AI 影片索引器自定義語言模型
重要
由於 Azure 媒體服務 淘汰公告,Azure AI 影片索引器會宣告 Azure AI 影片索引器功能調整。 請參閱 Azure 媒體服務 (AMS) 淘汰 的相關變更,以瞭解 Azure AI 影片索引器帳戶的意義。 請參閱準備AMS淘汰:VI更新和移轉指南。
Azure AI 影片索引器透過與 Microsoft 自定義語音服務整合支援自動語音辨識。 您可以上傳自適性文字來自定義語言模型。 此文字來自您想要引擎用來調整其詞彙的網域。 定型模型之後,會辨識在適應文字中顯示的新單字,假設預設發音,而語言模型會學習新的可能文字序列。 請參閱 Azure AI 影片索引器語言 所支援的清單,以支援的語言顯示。
例如, “Kubernetes” (在 Azure Kubernetes 服務的內容中),是高度特定的單字。 由於此字是 Azure AI 影片索引器的新功能,因此可辨識為 「社群」。 您需要將模型定型,才能將其辨識為 “Kubernetes”。 在其他情況下,這些字存在,但語言模型並不預期它們會出現在特定內容中。 例如, 「容器服務」 不是非特定語言模型可辨識為特定單字組的 2 字序列。
自訂語言模型的方式有兩種:
- 選項 1:編輯 Azure AI 影片索引器所產生的文字記錄。 藉由編輯和更正文字記錄,您將訓練語言模型,以在未來提供改良的結果。
- 選項 2:上傳文字檔來定型語言模型。 上傳檔案可以包含單字清單,因為您希望它們出現在影片索引器文字記錄中,或是句子和段落中自然包含的相關單字。 由於使用后一種方法取得較佳的結果,因此建議上傳檔案包含與您內容相關的完整句子或段落。
重要
請勿在上傳檔案中包含目前不正確地轉譯的字詞或句子(例如 「社群」),因為這樣會否定預期的影響。 只包含您想要出現的字組(例如“Kubernetes”。
自定義語言模型的最佳做法
Azure AI 影片索引器會根據單字組合的機率學習,因此最好學習:
- 提供足夠的真實句子範例,因為它們會被說出來。
- 每行只放置一個句子,而不是更多。 否則,系統會跨句子學習機率。
- 可以把一個單字當成句子來提升別人的字,但系統最好從完整的句子中學習。
- 如果可能的話,在引進新單字或縮寫時,請在完整句子中提供盡可能多的用法範例,以盡可能提供系統的內容。
- 嘗試放置數個適應選項,並查看它們如何為您運作。
- 避免重複完全相同的句子多次。 它可能會對其餘的輸入產生偏差。
- 避免包含不常見的符號 (~, # @ % &) ,因為它們會被捨棄。 其出現的句子也會被捨棄。
- 避免放置太大的輸入,例如數十萬個句子,因為這樣做會稀釋提升的效果。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應