共用方式為


上傳自訂語音的訓練和測試資料集

您需要音訊和文字資料,以便測試語音辨識的正確性或定型自訂模型。 如需測試或定型模型的支援資料類型相關資訊,請參閱定型和測試資料集

秘訣

您也將使用線上轉錄編輯器,以建立和調整已標記的音訊資料集。

上傳資料集

請遵循下列步驟來上傳數據集,以定型 (微調) 自定義語音模型。

重要事項

重複步驟,上傳您稍後在建立測試時需要的測試資料集 (例如僅限 [音訊])。 您可以上傳多個數據集以進行定型和測試。

  1. 登入 Microsoft Foundry 入口網站

  2. 從左窗格中選取 [ 微調 ],然後選取 [AI 服務微調]。

  3. 請選取您根據《如何啟動自訂語音微調》一文中指示啟動的自訂語音微調任務 (依模型名稱)。

  4. 選取 [管理數據>][新增數據集]。

    頁面的螢幕擷取畫面,其中包含將資料新增至自訂語音專案的選項。

  5. 在 [新增資料] 精靈中,選取您要新增的定型資料類型。 在此範例中,我們選取 [音訊 + 人工標記的轉錄內容]。 然後選取下一步

    頁面的螢幕擷取畫面,其中包含選項可選取您要新增的定型資料類型。

  6. 在 [上傳您的資料] 頁面上,選取本機檔案、Azure Blob 儲存體或其他共用的 Web 位置。 然後選取下一步

    如果您選取遠端位置且未使用受信任的 Azure 服務安全性機制,則遠端位置應該是可使用簡單匿名 GET 要求擷取的 URL。 例如,SAS URL 或可公開存取的 URL。 不支援需要額外授權或預期用戶互動的URL。

    附註

    如果您使用 Azure Blob URL,可以使用受信任的 Azure 服務安全性機制來確保資料集檔案獲得最大安全性。 您可以針對數據集檔案使用與批次轉譯和一般記憶體帳戶 URL 相同的技術。 請參閱這裡的詳細資料。

  7. 輸入資料的名稱和描述。 然後選取下一步

  8. 檢閱資料,然後選取 [上傳]。 您會回到 [管理資料] 頁面。 資料的狀態為 [處理中]

    頁面的螢幕擷取畫面,其中顯示資料狀態為處理中。

  9. 重複步驟,上傳您稍後在建立測試時需要的測試資料集 (例如僅限 [音訊])。 您可以上傳多個數據集以進行定型和測試。

  10. 重複上述步驟,上傳 您稍後用於測試的音訊數據。 在 [ 新增數據精靈] 中,針對您要新增的數據類型選取 [音訊 ]。

若要在 Speech Studio 中上傳自己的資料集,請遵循下列步驟:

  1. 登入 Speech Studio

  2. 選取[自訂語音]>[您的專案名稱]>[語音資料集]>[上傳資料]

  3. 選取 [定型資料][測試資料] 索引標籤。

  4. 選取資料集類型,並選取 [下一步]

  5. 指定資料集位置,並選取 [下一步]。 您可選擇本機檔案,或輸入遠端位置,例如 Azure Blob URL。 如果您選取遠端位置且未使用受信任的 Azure 服務安全性機制,則遠端位置應該是可使用簡單匿名 GET 要求擷取的 URL。 例如,SAS URL 或可公開存取的 URL。 不支援需要額外授權或預期用戶互動的URL。

    附註

    如果您使用 Azure Blob URL,可以使用受信任的 Azure 服務安全性機制來確保資料集檔案獲得最大安全性。 您可以針對數據集檔案使用與 Batch 轉譯和一般記憶體帳戶 URL 相同的技術。 請參閱這裡的詳細資料。

  6. 輸入資料集名稱和描述,並選取 [下一步]

  7. 檢閱您的設定,然後選取 [儲存後關閉]

上傳資料集後,請移至 [定型自訂模型] 頁面以定型自訂模型

繼續之前,請確定您已安裝並設定 語音 CLI

使用 Speech CLISpeech to Text REST API,與 Microsoft Foundry 入口網站Speech Studio 不同,你不會在上傳時選擇資料集是測試還是訓練。 您可指定在定型模型執行測試時的資料集使用方式。

雖然您未指示資料集用於測試或定型,但須指定資料集種類。 資料集種類可用於判斷要建立的資料集類型。 在某些情況下,資料集種類僅用於測試或定型,但不應具有相依性。 語音 CLI 與 REST API kind 的值對應於 Microsoft Foundry 入口網站Speech Studio 中的選項,詳見下表:

CLI 和 API 種類 入口網站選項
原音 定型資料:音訊 + 人工標記的轉錄內容
文字記錄 (自動音訊合成)
測試資料:音訊 + 人工標記的轉錄內容
AudioFiles 測試資料:音訊
語言 定型資料:純文字
LanguageMarkdown 定型資料:Markdown 格式的結構化文字
發音 定型資料:發音
輸出格式設定 訓練資料:輸出格式

重要事項

您不會使用語音 CLI 或 REST API 直接上傳資料檔。 首先,您會將訓練或測試資料集檔案儲存在語音 CLI 或 REST API 可以存取的 URL 上。 上傳資料集之後,您可以使用語音 CLI 或 REST API 來建立自訂語音測試或訓練的資料集。

若要建立資料集並連線至現有專案,請使用 spx csr dataset create 命令。 根據下列指示來建構要求參數:

  • project 屬性設定為現有項目的識別碼。 建議使用此功能 project ,方便你在 Microsoft Foundry 入口網站中管理自訂語音的微調。 若要取得專案識別碼,請參閱 取得 REST API 檔的專案識別碼

  • 設定必要的 kind 屬性。 訓練資料集種類可能的一組值包括:Acoustic、AudioFiles、Language、LanguageMarkdown 和發音。

  • 設定必要的 contentUrl 屬性。 此參數為資料集的位置。 如果您未使用受信任的 Azure 服務安全性機制(請參閱下一個附注),則 contentUrl 屬性應該是可使用簡單匿名 GET 要求擷取的 URL。 例如,SAS URL 或可公開存取的 URL。 不支援需要額外授權或預期使用者互動的 URL。

    附註

    如果您使用 Azure Blob URL,可以使用受信任的 Azure 服務安全性機制來確保資料集檔案獲得最大安全性。 您可以針對數據集檔案使用與 Batch 轉譯和一般記憶體帳戶 URL 相同的技術。 請參閱這裡的詳細資料。

  • 設定必要的 language 屬性。 資料集地區設定必須符合專案的地區設定。 稍後無法變更此地區設定。 Speech CLI 的 language 屬性對應於 JSON 要求和回應中的 locale 屬性。

  • 設定必要的 name 屬性。 這個參數就是 Microsoft Foundry 入口網站中顯示的名稱。 Speech CLI 的 name 屬性對應於 JSON 要求和回應中的 displayName 屬性。

以下語音 CLI 命令範例呈現如何建立資料集,並連線至現有專案:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

重要事項

您必須設定 --api-version v3.2。 語音 CLI 會使用 REST API,但尚未支援 v3.2之後的版本。

您應該會收到下列格式的回應本文:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

回應本文中最上層的 self 屬性為資料集的 URI。 使用此 URI 來取得資料集專案和檔案的詳細資料。 您也可使用此 URI 來更新或刪除資料集。

如需在資料集使用語音 CLI 的說明,請執行下列命令:

spx help csr dataset

使用 Speech CLISpeech to Text REST API,與 Microsoft Foundry 入口網站Speech Studio 不同,你不會在上傳時選擇資料集是測試還是訓練。 您可指定在定型模型執行測試時的資料集使用方式。

雖然您未指示資料集用於測試或定型,但須指定資料集種類。 資料集種類可用於判斷要建立的資料集類型。 在某些情況下,資料集種類僅用於測試或定型,但不應具有相依性。 語音 CLI 與 REST API kind 的值對應於 Microsoft Foundry 入口網站Speech Studio 中的選項,詳見下表:

CLI 和 API 種類 入口網站選項
原音 定型資料:音訊 + 人工標記的轉錄內容
文字記錄 (自動音訊合成)
測試資料:音訊 + 人工標記的轉錄內容
AudioFiles 測試資料:音訊
語言 定型資料:純文字
LanguageMarkdown 定型資料:Markdown 格式的結構化文字
發音 定型資料:發音
輸出格式設定 訓練資料:輸出格式

重要事項

您不會使用語音 CLI 或 REST API 直接上傳資料檔。 首先,您會將訓練或測試資料集檔案儲存在語音 CLI 或 REST API 可以存取的 URL 上。 上傳資料集之後,您可以使用語音 CLI 或 REST API 來建立自訂語音測試或訓練的資料集。

若要建立資料集並連線至現有專案,請使用語音轉換文字 REST APIDatasets_Create 作業。 根據下列指示來建構要求本文:

  • project 屬性設定為現有項目的識別碼。 建議使用此功能 project ,方便你在 Microsoft Foundry 入口網站中管理自訂語音的微調。 若要取得專案識別碼,請參閱 取得 REST API 檔的專案識別碼

  • 設定必要的 kind 屬性。 訓練資料集種類可能的一組值包括:Acoustic、AudioFiles、Language、LanguageMarkdown 和發音。

  • 設定必要的 contentUrl 屬性。 此屬性為資料集的位置。 如果您未使用受信任的 Azure 服務安全性機制(請參閱下一個附注),則 contentUrl 屬性應該是可使用簡單匿名 GET 要求擷取的 URL。 例如,SAS URL 或可公開存取的 URL。 不支援需要額外授權或預期使用者互動的 URL。

    附註

    如果您使用 Azure Blob URL,可以使用受信任的 Azure 服務安全性機制來確保資料集檔案獲得最大安全性。 您可以針對數據集檔案使用與 Batch 轉譯和一般記憶體帳戶 URL 相同的技術。 請參閱這裡的詳細資料。

  • 設定必要的 locale 屬性。 資料集地區設定必須符合專案的地區設定。 稍後無法變更此地區設定。

  • 設定必要的 displayName 屬性。 這個屬性就是 Microsoft Foundry 入口網站中顯示的名稱。

使用 URI 提出 HTTP POST 要求,如下列範例所示。 以您的語音資源金鑰取代 YourSpeechResoureKey、以您的語音資源區域取代 YourServiceRegion,並設定要求本文屬性,如前所述。

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSpeechResoureKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

您應該會收到下列格式的回應本文:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/aaaabbbb-0000-cccc-1111-dddd2222eeee",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/bbbbcccc-1111-dddd-2222-eeee3333ffff"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

回應本文中最上層的 self 屬性為資料集的 URI。 使用此 URI 來取得資料集專案和檔案的詳細資料。 您也可使用此 URI 來更新刪除資料集。

重要事項

使用 REST API 或語音 CLI 來訓練和測試自訂模型時,無須將資料集連線至自訂語音專案。 但如果資料集沒有連結到任何專案,你就無法在 Microsoft Foundry 入口網站中選取它進行訓練或測試。

後續步驟