自訂語音模型

發行項
10/09/2024

注意

Video Indexer Azure 試用帳戶和 Resource Manager 帳戶僅支援語音模型自訂，包括發音定型。傳統帳戶並不支援它。如需如何不付費更新帳戶類型的指引，請參閱更新您的 Azure AI 影片索引器帳戶。如需使用自定義語言體驗的指引，請參閱自定義語言模型。

Azure AI Video Indexer 可讓您建立自訂語音模型，藉由上傳用來建立語音模型的資料集來自訂語音辨識。本文會逐步介紹透過 Video Indexer 網站執行此動作的步驟。您也可以使用 API，如使用 API 自訂語音模型中所述。

如需自訂語音模型的詳細概觀和最佳作法，請參閱使用 Azure AI Video Indexer 自訂語音模型。

必要條件

閱讀語音模型定型最佳做法指南。
Azure 帳戶
Azure AI 影片索引器帳戶

入口網站
API

建立資料集

由於所有自訂模型都必須包含資料集，我們將從如何建立和管理資料集的程序開始。

選取 [ 模型自定義 ] 按鈕。
選取 [ 語音][新增] 索引標籤。
選取 [ 上傳數據集]。
從 [數據集類型] 下拉功能表中選取 [純文字] 或 [發音]。每個語音模型都必須有純文字資料集，且可以選擇性地擁有發音資料集。
選取 [ 瀏覽 ]，然後選取數據集檔案。您只能選擇一個。
選取 模型的語言 。選擇您打算在使用此模型編製索引的媒體檔案中說出的語言。數據集名稱會預先填入檔名，但您可以修改名稱。
您可以選擇性地新增資料集的描述。如果您預期有多個資料集，這可能有助於區分每個資料集。
選取上傳。當數據集建立完成時，您可以使用它來定型和建立新的模型。

檢閱及更新資料集

您可以檢視資料集及其屬性，方法是：

按兩下資料集名稱
將滑鼠停留在數據集上
選取省略號

然後，選取 [ 檢視數據集]。

然後，您可以檢視數據集的名稱、描述、語言和狀態，以及下列屬性：

行數：表示檔案內總行數中成功載入的行數。如果成功載入整個檔案，數字將會相符 (例如，10/10 個標準化)。如果數字不相符 (例如，7/10 個標準化)，這表示只有部分行成功載入，而其餘行有錯誤。常見的錯誤原因是行的格式問題，例如並未在發音檔案中的每個單字之間以定位點區隔。檢閱定型文章的純文字和發音資料應該有助於找出問題。若要針對原因進行疑難排解，請檢閱報告中包含的錯誤詳細資料。選取 [檢視報告] 以檢視未成功載入行的錯誤詳細資料 (errorKind)。您也可以選取 [報告] 索引標籤來檢視。

資料集識別碼：每個資料集都有唯一的 GUID，當針對參考資料集的作業使用 API 時，便需要此 GUID。

純文字 (標準化)：這包含載入資料集檔案的標準化文字。標準化文字是純文字格式的辨識文字，不包含格式。

編輯詳細數據：若要編輯數據集的名稱或描述，將滑鼠停留在數據集上方時，請選取省略號，然後選取 [編輯詳細數據]。然後，您可以編輯資料集名稱和描述。

注意

一旦上傳資料集，就無法編輯或更新資料集中的資料。如果您需要編輯或更新資料集中的資料，請下載資料集、執行編輯、儲存檔案，以及上傳新的資料集檔案。

下載：若要下載數據集檔案，請將滑鼠停留在數據集上方時，選取省略號，然後選取 [下載]。或者，檢視資料集時，您可以選取 [下載]，然後可以看到下載資料集檔案或以 JSON 格式上傳報告的選項。

刪除：若要刪除資料集，請將滑鼠停留在數據集上方時，請選取省略號，然後選取 [刪除]。

建立自訂語音模型

資料集用於建立和定型模型。建立純文字數據集之後，您就可以建立及開始使用自定義語音模型。

建立和使用自訂語音模型時，請記住下列事項：

新的模型必須包含至少一個純文字資料集，且可以有多個純文字資料集。
您可以選擇包含發音資料集，但不能包含多個發音資料集。
建立模型之後，您無法將其他資料集加入其中，或對其資料集執行任何修改。如果您需要新增或修改資料集，請建立新的模型。
如果您已使用自定義語音模型為影片編製索引，然後刪除模型，除非您執行重新索引，否則文字記錄不會受到影響。
如果您刪除了用來定型自訂模型的資料集，因為語音模型已經由資料集定型，它會繼續使用它，直到語音模型被刪除為止。
如果您刪除自訂模型，則不會影響已使用模型編製索引的影片謄寫。

將模型定型

注意

建立模型之後，就無法新增資料集。模型只能包含相同語言的資料集。

有兩種方式可定型模型 – 透過資料集索引標籤和模型索引標籤。

透過 [資料集] 索引標籤將模型定型

檢視數據集清單。
選取純文字數據集。 接著可以選取上述的定型新模型圖示。
選取 [ 定型新模型]。
輸入模型的名稱、語言，以及選擇性地新增描述。
選取 [數據集] 索引標籤
選取您想要包含在模型中的數據集。
選取 [ 建立並定型]。

透過 [模型] 索引標籤將模型定型

選取 [模型] 索引標籤。
選取 [ 定型新模型] 圖示。
選取您想要成為模型一部分的數據集。
輸入模型的名稱、語言，以及選擇性地新增描述。
選取 [ 數據集] 索引標籤 。
選取您想要包含在模型中的數據集。
選取 [ 建立並定型]。

檢閱和更新模型

檢視模型：您可以按一下模型的名稱或將滑鼠停留在模型上方，按一下省略符號，然後選取 [檢視模型] 來檢視模型及其屬性。

接著，您會在 [詳細數據] 索引標籤中看到模型的名稱、描述、語言和狀態，以及下列屬性：

模型識別碼：每個模型都有唯一的 GUID，當針對參考模型的作業使用 API 時，便需要此 GUID。

建立日期：建立模型的日期。

編輯詳細數據：若要編輯模型的名稱或描述，將滑鼠停留在模型上方時，請選取省略號，然後選取 [編輯詳細數據]。然後，您就可以編輯模型的名稱和描述。

注意

只能編輯模型的名稱和描述。如果您想要對其資料集進行任何變更或新增資料集，則必須建立新的模型。

刪除：若要刪除模型，請將滑鼠停留在數據集上方時，請選取省略號，然後選取 [刪除]。

包含的數據集：在 [包含的數據集] 索引標籤上選取，以檢視模型的數據集。

在編製影片索引時使用自定義語言模型

自定義語言模型預設不會用於編製索引作業，因此必須在索引上傳程式期間選取。

在上傳程式期間，從 語言下拉功能表中選取您的自定義語言 模型來源。
選取上傳。

當您想要使用自定義模型重新編製影片索引時，會套用相同的步驟。

注意

以下是一些與語音模型要求搭配使用的參數描述表格：

名字	輸入	描述
`displayName`	字串	資料集/模型所需的名稱。
`locale`	字串	資料集/模型的語言程式碼。如需完整清單，請參閱語言支援。
`kind`	整數	0 代表純文字資料集，1 代表發音資料集。
`description`	字串	資料集/模型的選擇性描述。
`contentUrl`	uri	用於建立資料集的來源檔案 URL。
`customProperties`	物件 (object)	資料集/模型的選擇性屬性。

建立語音資料集

建立語音數據集要求會建立數據集來定型語音模型。上傳用來使用此要求建立數據集的檔案。資料集的內容在建立後就無法修改。

定義要求本文中的參數，包括要上傳之文本檔的 URL。可選擇描述和自訂屬性欄位。這是要求本文的範例：

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

範例回應

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

建立語音模型

建立語音模型要求會建立和定型自定義語音模型，以用來改善影片的轉譯精確度。它至少必須包含一個純文本數據集。它可以選擇性地擁有發音數據集。使用所有相關的資料集檔案來建立，因為模型的資料集在建立後無法新增或更新。

定義要求主體中的參數，包括模型要包含之數據集或數據集的字串清單。可選擇描述和自訂屬性欄位。這是要求本文的範例：

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

範例回應

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

取得語音資料集

取得語音數據集 API 會傳回指定資料集的相關信息。

範例回應

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

取得語音資料集檔案

取得語音數據集檔案要求會傳回指定數據集的檔案和元數據。

範例回應

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

取得指定的帳戶資料集

取得語音數據集要求會傳回所有指定帳戶數據集的相關信息。

範例回應

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

取得指定的語音模型

取得語音模型 API 會傳回指定模型的相關信息。

範例回應

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

取得指定的帳戶語音模型

取得語音模型 API 會傳回指定帳戶中所有模型的相關信息。

範例回應

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

刪除語音資料集

刪除語音數據集 API 會刪除指定的數據集。使用已刪除資料集定型的任何模型都會繼續可供使用，直到刪除模型為止。您無法在資料集用於編制索引或定型時刪除資料集。

範例回應

成功刪除資料集時沒有任何傳回的內容。

刪除語音模型

刪除語音模型 API 會刪除指定的語音模型。您無法在模型用於編製索引或定型時刪除模型。

回應

成功刪除語音模型時，沒有任何傳回的內容。

共用方式為

自訂語音模型

必要條件

建立資料集

檢閱及更新資料集

建立自訂語音模型

將模型定型

透過 [資料集] 索引標籤將模型定型

透過 [模型] 索引標籤將模型定型

檢閱和更新模型

在編製影片索引時使用自定義語言模型

建立語音資料集

範例回應

建立語音模型

範例回應

取得語音資料集

範例回應

取得語音資料集檔案

範例回應

取得指定的帳戶資料集

範例回應

取得指定的語音模型

範例回應

取得指定的帳戶語音模型

範例回應

刪除語音資料集

範例回應

刪除語音模型

回應

意見反應

其他資源