共用方式為


使用 Azure AI 影片索引器自定義語言模型

Azure AI Video Indexer 透過與 Microsoft 自訂語音服務的整合來支援自動語音辨識。 您可以上傳適應性文本來自定義語言模型。 此文字來自您希望引擎用於適應其詞彙的域名。 定型模型之後,會辨識在調適文字中顯示的新單字,並假設預設發音,而語言模型會學習新的可能文字序列。 如需 Azure AI Video Indexer 支援的語言清單,請參閱支援的語言

例如, Kubernetes (在 Azure Kubernetes 服務的內容中),是高度特定的單字。 由於此字不熟悉 Azure AI 影片索引器,因此可辨識為 社群。 將模型定型以將其辨識為 Kubernetes。 在其他情況下,文字存在,但語言模型並不預期它們會出現在特定內容中。 例如, 容器服務 不是非特定語言模型可辨識為特定單字組的雙字序列。

有兩種方式可以自訂語言模型:

  • 選項 1:編輯 Azure AI 影片索引器產生的文字記錄。 藉由編輯和更正文字記錄,您可以定型語言模型,在日後提供更好的結果。
  • 選項 2:上傳文字檔來定型語言模型。 檔案可以包含文字清單,就像您想要在影片索引器文字記錄中出現一樣。 或者,它可以包含句子和段落中自然包含的相關字組。 使用后一種方法取得較佳的結果時,建議您上傳檔案包含與您內容相關的完整句子或段落。

重要

請勿在上傳檔案中包含目前不正確地轉譯的字詞或句子,因為這會否定預期的影響。 只包含您想要出現的字組(例如 Kubernetes)。

優化您的自定義語言模型

Azure AI Video Indexer 會根據單字組合的概率進行學習,以達到最佳效果:

  • 盡可能提供可能說出的句子實例。
  • 每行一句,不要超過一句。 否則,系統會在不同句子中學習機率。
  • 可以只用一個字來構成一個句子,以便強調該字相對於其他詞的突出,但系統在學習完整句子時效果最佳。
  • 加入新的字詞或縮寫時,盡可能提供多個在完整的句子中使用的範例,以盡量提供給系統最多的內容。
  • 嘗試多種調整選項,看看它們的效果如何。
  • 避免多次重複完全相同的句子。 它可能會針對其餘的輸入產生偏差。
  • 避免包含不常見的符號 (~, # @ % &) ,因為它們會被捨棄。 出現這些符號的句子也會予以捨棄。
  • 避免過於大量的輸入,例如數十萬個句子,因為這麼做會減弱提升效果。

必要條件

  • Azure 帳戶
  • Azure AI 影片索引器帳戶

建立語言模型

  1. 前往 Azure AI Video Indexer (英文) 網站並登入。
  2. 若要在您的帳戶中自訂模型,請選取頁面左側的 [內容模型自訂] 按鈕。
  3. 選取 [ 語言] 索引標籤。您會看到支援的語言清單。
  4. 在您想要的語言下方,選取 [新增模型]
  5. 輸入語言模型的名稱,然後按 Enter。 此步驟會建立模型,並提供將文字檔案上傳至模型的選項。
  6. 若要新增文字檔案,選取 [新增檔案]。 您的檔案總管隨即開啟。
  7. 前往並選擇文字檔案。 您可以將多個文字檔新增至語言模型。 您也可以選取 語言模型右側的 [...] 按鈕,然後選取 [新增檔案] 來新增文本檔
  8. 上傳文字檔案完成之後,選取綠色的 訓練 選項。

定型程序可能需要數分鐘的時間。 訓練完成後,[已訓練] 會出現在模型旁邊。 您可以從模型預覽、下載和刪除檔案。

在新影片上使用語言模型

若要在新影片上使用您的語言模型,請執行下列其中一個動作:

  1. 選取頁面頂端的 [ 上傳 ]。
  2. 您可以拖曳您的音訊或影片檔案,或瀏覽以選擇檔案。
  3. 從 [ 影片來源語言 ] 列表中選取您建立的語言模型。
  4. 選取頁面底部的 [上傳] 選項,並使用您的語言模型編製新影片的索引。

使用語言模型重新編製索引

  1. 登入 Azure AI Video Indexer 首頁。
  2. 選取影片上的省略號 (...),然後選取 [重新編製索引]。
  3. 選取 [ 影片來源語言 ] 列表,然後從清單中選取您建立的語言模型。
  4. 選取 [重新編制索引] ,並使用您的語言模型重新編製影片索引。

編輯語言模型

您可以藉由變更語言模型的名稱、新增檔案,以及從中刪除檔案,來編輯語言模型。 如果您從語言模型新增或刪除檔案,您必須選取綠色的 [ 型] 選項來重新定型模型。

重新命名語言模型

您可以選取語言模型右側的省略號 ,然後選取 [ 重新命名] 來變更語言模型的名稱。 輸入新名稱。

新增檔案

  1. 選取 [Add file] (新增檔案)。 您的檔案總管隨即開啟。
  2. 前往並選擇文字檔案。 您可以將多個文字檔新增至語言模型。

您也可以選取語言模型右側的省略號 (...) 按鈕,然後選取 [ 新增檔案] 來新增文本檔。

刪除檔案

此動作會從語言模型完全移除檔案。

  1. 選取文字文件右側的省略號 (...) 按鈕。
  2. 選取 [刪除]。 新視窗跳出,提醒您刪除無法復原。
  3. 選取新視窗中的 [刪除] 選項。

刪除語言模型

此動作會從您的帳戶中完全移除語言模型。 使用已刪除語言模型的任何影片會保留相同的索引,直到您重新編製影片索引為止。 如果您重新編製影片的索引,您可以將新的語言模型指派給影片。 否則,Azure AI Video Indexer 會使用其預設模型重新編製影片索引。

  1. 選取語言模型右側的省略號 (...) 按鈕。
  2. 選取 [刪除]。 新視窗跳出,提醒您刪除無法復原。
  3. 選取新視窗中的 [刪除] 選項。

透過更正轉錄文字來自訂語言模型

Azure AI 影片索引器會根據使用者對影片轉譯進行的實際更正,自定義語言模型。 它會擷取您在視訊轉譯中更正的所有行,並將其新增至名為 From transcript edits的文本檔。 這些編輯可用來重新定型用來編製影片索引的語言模型。

也包含在小工具的時間軸中進行的編輯。

如果您在編制此影片的索引時未指定語言模型,則此影片的所有編輯都會儲存在影片偵測到的語言內呼叫 Account adaptations 的默認語言模型。

如果對同一行進行多個編輯,則只會使用最後一個版本的更正行來更新語言模型。

注意

文字更正只會用於自訂。 不包括不涉及文字的更動(例如,標點符號或空格)。

  1. 從文檔庫選取您想要編輯的影片。
  2. 選取 [時間軸] 索引標籤。
  3. 選取鉛筆圖示以編輯轉譯的文字記錄。
  4. 您會看到文字記錄更正出現在內容模型自訂頁面的 [ 語言 ] 索引標籤中。 若要查看每個語言模型的「文字記錄編輯來源」檔案,請選取該檔案加以開啟。