建立自訂語音專案

發行項
10/16/2024

自訂語音專案包含模型、定型和測試資料集，以及部署端點。每個專案都是地區設定特有的。例如，您可能會針對美國的英語建立專案。

建立專案

若要建立自訂語音專案，請遵循下列步驟：

登入 Speech Studio。
選取要處理的訂用帳戶和語音資源。

重要

若您要使用音訊資料來定型自訂模型，請選擇具有專用硬體的語音資源區域來定型音訊資料。如需詳細資訊，請參閱區域資料表中的註腳。
選取 [自訂語音]>[建立新專案]。
依照精靈提供的指示建立您的專案。

依名稱選取新專案，或選取 [移至專案]。您將會在左側面板中看到這些功能表項目：[語音資料集]、[定型自訂模型]、[測試模型] 和 [部署模型]。

若要建立專案，請使用 spx csr project create 命令。根據下列指示來建構要求參數：

設定必要的 language 參數。專案和自主資料集的地區設定應該相同。稍後無法變更此地區設定。語音 CLI language 參數會對應至 JSON 要求和回應中的 locale 屬性。
設定必要的 name 參數。這是顯示在 Speech Studio 中的名稱。語音 CLI name 參數會對應至 JSON 要求和回應中的 displayName 屬性。

以下是建立專案的範例語音 CLI 命令：

spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"

您應該會收到下列格式的回應本文：

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

回應本文中最上層的 self 屬性為專案的 URI。使用此 URI 來取得專案評估、資料集、模型、端點和轉譯的詳細資料。您也可使用此 URI 來更新或刪除專案。

如需在專案使用語音 CLI 的說明，請執行下列命令：

spx help csr project

若要建立專案，請使用語音轉換文字 REST API 的 Projects_Create 作業。根據下列指示來建構要求本文：

設定必要的 locale 屬性。這應該是自主資料集的地區設定。稍後無法變更此地區設定。
設定必要的 displayName 屬性。這是顯示在 Speech Studio 中的專案名稱。

使用 URI 提出 HTTP POST 要求，如下列 Projects_Create 範例所示。以您的語音資源金鑰取代 YourSubscriptionKey、以您的語音資源區域取代 YourServiceRegion，並設定要求本文屬性，如前所述。

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"

您應該會收到下列格式的回應本文：

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

選擇您的模型

使用自訂語音模型的方法有幾個：

基底模型針對各種案例提供現成可用的語音辨識。基底模型會定期更新，以改善精確度和品質。建議您如果使用基底模型，請使用最新的預設基底模型。如果必要的自訂功能僅適用於較舊的模型，則您可以選擇較舊的基底模型。
自訂模型會增強基底模型，以包含跨自訂定義域所有區域共用的定義域特定詞彙。
當自訂區域有多個區域，且每個區域都有特定的詞彙時，可以使用多個自訂模型。

有一建議方式可查看基底模型是否足夠，就是分析從基底模型產生的謄寫，並將其與同一音訊的人類產生文字記錄進行比較。您可以比較文字記錄並取得字組錯誤率 (WER) 分數。如果 WER 分數很高，建議訓練自訂模型來辨識未正確識別的字組。

如果詞彙會因領域區域而異，建議使用多個模型。例如，Olympic 批註器會報告各種事件，每個事件都與自己的詞彙相關聯。由於每個 Olympic 事件詞彙與其他詞彙皆有很大差異，因此建置事件特有的自訂模型會限制相對於該特定事件的語句資料，藉此提高精確度。因此，模型不需要詳細檢查不相關的資料，也能進行比對。無論如何，定型仍然需要各種不同的定型資料。包括不同口音、性別、年齡等等各種留言者的音訊。

模型穩定性和生命週期

使用自訂語音部署至端點的基底模型或自訂模型已固定，直到您決定更新為止。即使在釋出新的基底模型時，語音辨識精確度和品質仍會保持一致。這可讓您鎖定特定模型的行為，直到您決定使用較新的模型為止。

不論您是定型自己的模型還是使用基底模型的快照集，您都可以在有限的時間內使用模型。如需詳細資訊，請參閱模型和端點生命週期。

共用方式為

建立自訂語音專案

建立專案

選擇您的模型

模型穩定性和生命週期

下一步

意見反應

其他資源