使用 Azure AI 影片索引器自定義語言模型

發行項
03/23/2024

重要

由於 Azure 媒體服務淘汰公告，Azure AI 影片索引器會宣告 Azure AI 影片索引器功能調整。請參閱 Azure 媒體服務（AMS）淘汰的相關變更，以瞭解 Azure AI 影片索引器帳戶的意義。請參閱準備AMS淘汰：VI更新和移轉指南。

Azure AI 影片索引器透過與 Microsoft 自定義語音服務整合支援自動語音辨識。您可以上傳自適性文字來自定義語言模型。此文字來自您想要引擎用來調整其詞彙的網域。定型模型之後，會辨識在適應文字中顯示的新單字，假設預設發音，而語言模型會學習新的可能文字序列。請參閱 Azure AI 影片索引器語言所支援的清單，以支援的語言顯示。

例如， “Kubernetes” （在 Azure Kubernetes 服務的內容中），是高度特定的單字。由於此字是 Azure AI 影片索引器的新功能，因此可辨識為 「社群」。您需要將模型定型，才能將其辨識為 “Kubernetes”。 在其他情況下，這些字存在，但語言模型並不預期它們會出現在特定內容中。例如， 「容器服務」 不是非特定語言模型可辨識為特定單字組的 2 字序列。

自訂語言模型的方式有兩種：

選項 1：編輯 Azure AI 影片索引器所產生的文字記錄。藉由編輯和更正文字記錄，您將訓練語言模型，以在未來提供改良的結果。
選項 2：上傳文字檔來定型語言模型。上傳檔案可以包含單字清單，因為您希望它們出現在影片索引器文字記錄中，或是句子和段落中自然包含的相關單字。由於使用后一種方法取得較佳的結果，因此建議上傳檔案包含與您內容相關的完整句子或段落。

重要

請勿在上傳檔案中包含目前不正確地轉譯的字詞或句子（例如 「社群」），因為這樣會否定預期的影響。只包含您想要出現的字組（例如“Kubernetes”。

自定義語言模型的最佳做法

Azure AI 影片索引器會根據單字組合的機率學習，因此最好學習：

提供足夠的真實句子範例，因為它們會被說出來。
每行只放置一個句子，而不是更多。否則，系統會跨句子學習機率。
可以把一個單字當成句子來提升別人的字，但系統最好從完整的句子中學習。
如果可能的話，在引進新單字或縮寫時，請在完整句子中提供盡可能多的用法範例，以盡可能提供系統的內容。
嘗試放置數個適應選項，並查看它們如何為您運作。
避免重複完全相同的句子多次。它可能會對其餘的輸入產生偏差。
避免包含不常見的符號（~， # @ % &），因為它們會被捨棄。其出現的句子也會被捨棄。
避免放置太大的輸入，例如數十萬個句子，因為這樣做會稀釋提升的效果。

使用 Azure AI 影片索引器自定義語言模型

自定義語言模型的最佳做法

意見反應

意見反應

其他資源