共用方式為


使用 Azure AI 影片索引器自定義語言模型

Azure AI Video Indexer 透過與 Microsoft 自訂語音服務的整合來支援自動語音辨識。 您可以上傳自適性文字來自定義語言模型。 此文字來自您想要引擎用來調整其詞彙的網域。 定型模型之後,會辨識在調適文字中顯示的新單字,並假設預設發音,而語言模型會學習新的可能文字序列。 如需 Azure AI Video Indexer 支援的語言清單,請參閱支援的語言

例如, “Kubernetes” (在 Azure Kubernetes 服務的內容中),是高度特定的單字。 由於這對 Azure AI Video Indexer 而言是新的字,因此會將該字辨識為「社群」。 將模型定型以將其辨識為 「Kubernetes」。。 在其他情況下,文字存在,但語言模型並不預期它們會出現在特定內容中。 例如, 「容器服務」 不是非特定語言模型可辨識為特定單字組的 2 字序列。

有兩種方式可以自訂語言模型:

  • 選項 1:編輯 Azure AI Video Indexer 所產生的文字記錄。 藉由編輯和更正文字記錄,您可以定型語言模型,在日後提供更好的結果。
  • 選項 2:上傳文字檔以定型語言模型。 檔案可以包含單字清單,因為您希望它們出現在影片索引器文字記錄中,或是句子和段落中自然包含的相關單字。 由於使用後一種方法可取得較好的結果,建議上傳檔案應包含與您的內容相關的完整句子或段落。

重要

請勿在上傳檔案中包含目前錯誤轉譯的字詞或句子(例如 「社群」),因為這樣會否定預期的影響。 僅包含您想要顯示的單字 (例如「Kubernetes」)。

優化您的自定義語言模型

Azure AI Video Indexer 可根據單字組合進行學習,藉此達到最佳學習效果:

  • 盡可能提供可能說出的句子實例。
  • 每行一句,不要超過一句。 否則系統會學習跨越句子的機率。
  • 一句可以只有一個字,以便凸顯該字,但系統學習完整句子的效果最好。
  • 加入新的字詞或縮寫時,盡可能提供多個在完整的句子中使用的範例,以盡量提供給系統最多的內容。
  • 嘗試加入多個適應選項,並查看運作的效果。
  • 避免多次重複完全相同的句子。 它可能會造成相對於其餘輸入的偏差。
  • 避免包含不常見的符號 (~, # @ % &) ,因為它們會被捨棄。 出現這些符號的句子也將予以捨棄。
  • 避免太大量的輸入,例如數十萬個句子,因為這麼做會減弱提升的效果。

必要條件

  • Azure 帳戶
  • Azure AI 影片索引器帳戶

建立語言模型

  1. 前往 Azure AI Video Indexer (英文) 網站並登入。
  2. 若要在您的帳戶中自訂模型,請選取頁面左側的 [內容模型自訂] 按鈕。
  3. 選取 [ 語言] 索引標籤。您會看到支援的語言清單。
  4. 在您想要的語言下方,選取 [新增模型]
  5. 輸入語言模型的名稱,然後按 Enter。 此步驟會建立模型,並提供將文字檔案上傳至模型的選項。
  6. 若要新增文字檔案,選取 [新增檔案]。 您的檔案總管將會開啟。
  7. 瀏覽至文字檔案並加以選取。 您可以將多個文字檔新增至語言模型。 您也可以選取 語言模型右側的 [...] 按鈕,然後選取 [新增檔案] 來新增文本檔
  8. 上傳文字檔案完成之後,選取綠色的 [定型] 選項。

定型程序可能需要數分鐘的時間。 定型完成後, [定型] 會出現在模型旁邊。 您可以從模型預覽、下載和刪除檔案。

在新影片上使用語言模型

若要在新影片上使用您的語言模型,請執行下列其中一個動作:

  1. 選取頁面頂端的 [上傳] 按鈕。
  2. 置放您的音訊或影片檔案或瀏覽您的檔案。
  3. 從 [ 影片來源語言] 下拉式清單中選取您建立的語言 模型。
  4. 選取頁面底部的 [上傳] 選項,您的新視訊將會使用您的語言模型編製索引。

使用語言模型重新編製索引

  1. 登入 Azure AI Video Indexer 首頁。
  2. 按一下影片上的 [...] 按鈕,然後選取 [重新編制索引]
  3. 選取 [ 影片來源語言 ] 下拉式清單,然後選取您從清單中建立的語言模型。
  4. 選取 [ 重新編制索引] 按鈕,並使用您的語言模型重新編製影片索引。

編輯語言模型

您可以藉由變更語言模型的名稱、新增檔案,以及從中刪除檔案,來編輯語言模型。 如果您從語言模型新增或刪除檔案,您必須選取綠色 的 [定 型] 選項來重新定型模型。

重新命名語言模型

您可以選取語言模型右側的省略號 (...) 按鈕,然後選取 [ 重新命名] 來變更語言模型的名稱。 輸入新名稱。

新增檔案

  1. 選取 [Add file] (新增檔案)。 您的檔案總管將會開啟。
  2. 瀏覽至文字檔案並加以選取。 您可以將多個文字檔新增至語言模型。

您也可以選取語言模型右側的省略號 (...) 按鈕,然後選取 [ 新增檔案] 來新增文本檔。

刪除檔案

此動作會從語言模型完全移除檔案。

  1. 選取文字文件右側的省略號 (...) 按鈕。
  2. 選取 [刪除]。 新的視窗隨即快顯,告知您無法復原刪除。
  3. 選取新視窗中的 [刪除] 選項。

刪除語言模型

此動作會從您的帳戶中完全移除語言模型。 使用 deletedlLanguage 模型的任何影片都會保留相同的索引,直到您重新編製影片索引為止。 如果您重新編製影片的索引,您可以將新的語言模型指派給影片。 否則,Azure AI Video Indexer 將會使用其預設模型重新編製視訊索引。

  1. 選取語言模型右側的省略號 (...) 按鈕。
  2. 選取 [刪除]。 新的視窗隨即快顯,告知您無法復原刪除。
  3. 選取新視窗中的 [刪除] 選項。

藉由更正文字記錄來自定義語言模型

Azure AI 影片索引器會根據使用者對影片轉譯進行的實際更正,自定義語言模型。 它會擷取您在視訊轉譯中更正的所有行,並將其新增至名為 From transcript edits的文本檔。 這些編輯可用來重新定型用來編製影片索引的語言模型。

也包含小工具時程表中 完成的 編輯。

如果您在編制此影片的索引時未指定語言模型,則此影片的所有編輯都會儲存在影片偵測到的語言內呼叫 Account adaptations 的默認語言模型。

如果已對同一行進行多個編輯,則只會使用最後一個版本更正的行來更新語言模型。

注意

文字更正只會用於自訂。 不包含未涉及實際字組 (例如,標點符號或空格) 的更正。

  1. 從文檔庫選取您想要編輯的影片。
  2. 選取 [時間軸] 索引標籤。
  3. 選取鉛筆圖示以編輯轉譯的文字記錄。
  4. 您會看到文字記錄更正顯示在 Con 帳篷模式 l 自定義頁面的 [語言] 索引標籤中。 若要查看每個語言模型的「文字記錄編輯來源」檔案,請選取該檔案加以開啟。