共用方式為


建立自訂語音專案

自訂語音專案包含模型、定型和測試資料集,以及部署端點。 每個專案都是地區設定特有的。 例如,您可能會針對美國的英語建立專案。

建立專案

若要建立自訂語音專案,請遵循下列步驟:

  1. 登入 Speech Studio

  2. 選取要處理的訂用帳戶和語音資源。

    重要

    若您要使用音訊資料來定型自訂模型,請選擇具有專用硬體的語音資源區域來定型音訊資料。 如需詳細資訊,請參閱區域資料表中的註腳。

  3. 選取 [自訂語音]>[建立新專案]

  4. 依照精靈提供的指示建立您的專案。

依名稱選取新專案,或選取 [移至專案]。 您將會在左側面板中看到這些功能表項目:[語音資料集]、[定型自訂模型]、[測試模型] 和 [部署模型]

若要建立專案,請使用 spx csr project create 命令。 根據下列指示來建構要求參數:

  • 設定必要的 language 參數。 專案和自主資料集的地區設定應該相同。 稍後無法變更此地區設定。 語音 CLI language 參數會對應至 JSON 要求和回應中的 locale 屬性。
  • 設定必要的 name 參數。 這是顯示在 Speech Studio 中的名稱。 語音 CLI name 參數會對應至 JSON 要求和回應中的 displayName 屬性。

以下是建立專案的範例語音 CLI 命令:

spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"

您應該會收到下列格式的回應本文:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

回應本文中最上層的 self 屬性為專案的 URI。 使用此 URI 來取得專案評估、資料集、模型、端點和轉譯的詳細資料。 您也可使用此 URI 來更新或刪除專案。

如需在專案使用語音 CLI 的說明,請執行下列命令:

spx help csr project

若要建立專案,請使用語音轉換文字 REST APIProjects_Create 作業。 根據下列指示來建構要求本文:

  • 設定必要的 locale 屬性。 這應該是自主資料集的地區設定。 稍後無法變更此地區設定。
  • 設定必要的 displayName 屬性。 這是顯示在 Speech Studio 中的專案名稱。

使用 URI 提出 HTTP POST 要求,如下列 Projects_Create 範例所示。 以您的語音資源金鑰取代 YourSubscriptionKey、以您的語音資源區域取代 YourServiceRegion,並設定要求本文屬性,如前所述。

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"

您應該會收到下列格式的回應本文:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

回應本文中最上層的 self 屬性為專案的 URI。 使用此 URI 來取得專案評估、資料集、模型、端點和轉譯的詳細資料。 您也可使用此 URI 來更新刪除專案。

選擇您的模型

使用自訂語音模型的方法有幾個:

  • 基底模型針對各種案例提供現成可用的語音辨識。 基底模型會定期更新,以改善精確度和品質。 建議您如果使用基底模型,請使用最新的預設基底模型。 如果必要的自訂功能僅適用於較舊的模型,則您可以選擇較舊的基底模型。
  • 自訂模型會增強基底模型,以包含跨自訂定義域所有區域共用的定義域特定詞彙。
  • 當自訂區域有多個區域,且每個區域都有特定的詞彙時,可以使用多個自訂模型。

有一建議方式可查看基底模型是否足夠,就是分析從基底模型產生的謄寫,並將其與同一音訊的人類產生文字記錄進行比較。 您可以比較文字記錄並取得字組錯誤率 (WER) 分數。 如果 WER 分數很高,建議訓練自訂模型來辨識未正確識別的字組。

如果詞彙會因領域區域而異,建議使用多個模型。 例如,Olympic 批註器會報告各種事件,每個事件都與自己的詞彙相關聯。 由於每個 Olympic 事件詞彙與其他詞彙皆有很大差異,因此建置事件特有的自訂模型會限制相對於該特定事件的語句資料,藉此提高精確度。 因此,模型不需要詳細檢查不相關的資料,也能進行比對。 無論如何,定型仍然需要各種不同的定型資料。 包括不同口音、性別、年齡等等各種留言者的音訊。

模型穩定性和生命週期

使用自訂語音部署至端點的基底模型或自訂模型已固定,直到您決定更新為止。 即使在釋出新的基底模型時,語音辨識精確度和品質仍會保持一致。 這可讓您鎖定特定模型的行為,直到您決定使用較新的模型為止。

不論您是定型自己的模型還是使用基底模型的快照集,您都可以在有限的時間內使用模型。 如需詳細資訊,請參閱模型和端點生命週期

下一步