共用方式為


自訂語音模型

注意

Video Indexer Azure 試用帳戶和 Resource Manager 帳戶僅支援語音模型自訂,包括發音定型。 傳統帳戶並不支援它。 如需如何不付費更新帳戶類型的指引,請參閱 更新您的 Azure AI 影片索引器帳戶。 如需使用自定義語言體驗的指引,請參閱 自定義語言模型

Azure AI Video Indexer 可讓您建立自訂語音模型,藉由上傳用來建立語音模型的資料集來自訂語音辨識。 本文會逐步介紹透過 Video Indexer 網站執行此動作的步驟。 您也可以使用 API,如使用 API 自訂語音模型中所述。

如需自訂語音模型的詳細概觀和最佳作法,請參閱使用 Azure AI Video Indexer 自訂語音模型

必要條件

建立資料集

由於所有自訂模型都必須包含資料集,我們將從如何建立和管理資料集的程序開始。

  1. 選取 [ 模型自定義 ] 按鈕。
  2. 選取 [ 語音][新增] 索引標籤。
  3. 選取 [ 上傳數據集]。
  4. 從 [數據集類型] 下拉功能表中選取 [純文字] 或 [發音]。 每個語音模型都必須有純文字資料集,且可以選擇性地擁有發音資料集。
  5. 選取 [ 瀏覽 ],然後選取數據集檔案。 您只能選擇一個。
  6. 選取 模型的語言 。 選擇您打算在使用此模型編製索引的媒體檔案中說出的語言。 數據集名稱會預先填入檔名,但您可以修改名稱。
  7. 您可以選擇性地新增資料集的描述。 如果您預期有多個資料集,這可能有助於區分每個資料集。
  8. 選取上傳。 當數據集建立完成時,您可以使用它來定型和建立新的模型。

檢閱及更新資料集

您可以檢視資料集及其屬性,方法是:

  • 按兩下資料集名稱
  • 將滑鼠停留在數據集上
  • 選取省略號

然後,選取 [ 檢視數據集]。

然後,您可以檢視數據集的名稱、描述、語言和狀態,以及下列屬性:

行數:表示檔案內總行數中成功載入的行數。 如果成功載入整個檔案,數字將會相符 (例如,10/10 個標準化)。 如果數字不相符 (例如,7/10 個標準化),這表示只有部分行成功載入,而其餘行有錯誤。 常見的錯誤原因是行的格式問題,例如並未在發音檔案中的每個單字之間以定位點區隔。 檢閱定型文章的純文字和發音資料應該有助於找出問題。 若要針對原因進行疑難排解,請檢閱報告中包含的錯誤詳細資料。 選取 [檢視報告] 以檢視未成功載入行的錯誤詳細資料 (errorKind)。 您也可以選取 [報告] 索引標籤來檢視。

資料集識別碼:每個資料集都有唯一的 GUID,當針對參考資料集的作業使用 API 時,便需要此 GUID。

純文字 (標準化):這包含載入資料集檔案的標準化文字。 標準化文字是純文字格式的辨識文字,不包含格式。

編輯詳細數據:若要編輯數據集的名稱或描述,將滑鼠停留在數據集上方時,請選取省略號,然後選取 [編輯詳細數據]。 然後,您可以編輯資料集名稱和描述。

注意

一旦上傳資料集,就無法編輯或更新資料集中的資料。 如果您需要編輯或更新資料集中的資料,請下載資料集、執行編輯、儲存檔案,以及上傳新的資料集檔案。

下載:若要下載數據集檔案,請將滑鼠停留在數據集上方時,選取省略號,然後選取 [下載]。 或者,檢視資料集時,您可以選取 [下載],然後可以看到下載資料集檔案或以 JSON 格式上傳報告的選項。

刪除:若要刪除資料集,請將滑鼠停留在數據集上方時,請選取省略號,然後選取 [刪除]。

建立自訂語音模型

資料集用於建立和定型模型。 建立純文字數據集之後,您就可以建立及開始使用自定義語音模型。

建立和使用自訂語音模型時,請記住下列事項:

  • 新的模型必須包含至少一個純文字資料集,且可以有多個純文字資料集。
  • 您可以選擇包含發音資料集,但不能包含多個發音資料集。
  • 建立模型之後,您無法將其他資料集加入其中,或對其資料集執行任何修改。 如果您需要新增或修改資料集,請建立新的模型。
  • 如果您已使用自定義語音模型為影片編製索引,然後刪除模型,除非您執行重新索引,否則文字記錄不會受到影響。
  • 如果您刪除了用來定型自訂模型的資料集,因為語音模型已經由資料集定型,它會繼續使用它,直到語音模型被刪除為止。
  • 如果您刪除自訂模型,則不會影響已使用模型編製索引的影片謄寫。

將模型定型

注意

建立模型之後,就無法新增資料集。 模型只能包含相同語言的資料集。

有兩種方式可定型模型 – 透過資料集索引標籤和模型索引標籤。

透過 [資料集] 索引標籤將模型定型

  1. 檢視數據集清單。
  2. 選取純文字數據集。 接著可以選取上述的定型新模型圖示。
  3. 選取 [ 定型新模型]。
  4. 輸入模型的名稱、語言,以及選擇性地新增描述。
  5. 選取 [數據集] 索引標籤
  6. 選取您想要包含在模型中的數據集。
  7. 選取 [ 建立並定型]。

透過 [模型] 索引標籤將模型定型

  1. 選取 [模型] 索引標籤。
  2. 選取 [ 定型新模型] 圖示。
  3. 選取您想要成為模型一部分的數據集。
  4. 輸入模型的名稱、語言,以及選擇性地新增描述。
  5. 選取 [ 數據集] 索引標籤
  6. 選取您想要包含在模型中的數據集。
  7. 選取 [ 建立並定型]。

檢閱和更新模型

檢視模型:您可以按一下模型的名稱或將滑鼠停留在模型上方,按一下省略符號,然後選取 [檢視模型] 來檢視模型及其屬性。

接著,您會在 [詳細數據] 索引標籤中看到模型的名稱、描述、語言和狀態,以及下列屬性:

模型識別碼:每個模型都有唯一的 GUID,當針對參考模型的作業使用 API 時,便需要此 GUID。

建立日期:建立模型的日期。

編輯詳細數據:若要編輯模型的名稱或描述,將滑鼠停留在模型上方時,請選取省略號,然後選取 [編輯詳細數據]。 然後,您就可以編輯模型的名稱和描述。

注意

只能編輯模型的名稱和描述。 如果您想要對其資料集進行任何變更或新增資料集,則必須建立新的模型。

刪除:若要刪除模型,請將滑鼠停留在數據集上方時,請選取省略號,然後選取 [刪除]。

包含的數據集:在 [包含的數據集] 索引標籤上選取 ,以檢視模型的數據集。

在編製影片索引時使用自定義語言模型

自定義語言模型預設不會用於編製索引作業,因此必須在索引上傳程式期間選取。

  1. 在上傳程式期間,從 語言下拉功能表中選取您的自定義語言 模型來源。
  2. 選取上傳

當您想要使用自定義模型重新編製影片索引時,會套用相同的步驟。