建立自訂語音專案
自訂語音專案包含模型、定型和測試資料集,以及部署端點。 每個專案都是地區設定特有的。 例如,您可能會針對美國的英語建立專案。
建立專案
若要建立自訂語音專案,請遵循下列步驟:
登入 Speech Studio。
選取要處理的訂用帳戶和語音資源。
重要
若您要使用音訊資料來定型自訂模型,請選擇具有專用硬體的語音資源區域來定型音訊資料。 如需詳細資訊,請參閱區域資料表中的註腳。
選取 [自訂語音]>[建立新專案]。
依照精靈提供的指示建立您的專案。
依名稱選取新專案,或選取 [移至專案]。 您將會在左側面板中看到這些功能表項目:[語音資料集]、[定型自訂模型]、[測試模型] 和 [部署模型]。
若要建立專案,請使用 spx csr project create
命令。 根據下列指示來建構要求參數:
- 設定必要的
language
參數。 專案和自主資料集的地區設定應該相同。 稍後無法變更此地區設定。 語音 CLIlanguage
參數會對應至 JSON 要求和回應中的locale
屬性。 - 設定必要的
name
參數。 這是顯示在 Speech Studio 中的名稱。 語音 CLIname
參數會對應至 JSON 要求和回應中的displayName
屬性。
以下是建立專案的範例語音 CLI 命令:
spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"
您應該會收到下列格式的回應本文:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
"links": {
"evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
"datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
"models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
"endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
"transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
},
"properties": {
"datasetCount": 0,
"evaluationCount": 0,
"modelCount": 0,
"transcriptionCount": 0,
"endpointCount": 0
},
"createdDateTime": "2024-07-14T17:15:55Z",
"locale": "en-US",
"displayName": "My Project",
"description": "My Project Description"
}
回應本文中最上層的 self
屬性為專案的 URI。 使用此 URI 來取得專案評估、資料集、模型、端點和轉譯的詳細資料。 您也可使用此 URI 來更新或刪除專案。
如需在專案使用語音 CLI 的說明,請執行下列命令:
spx help csr project
若要建立專案,請使用語音轉換文字 REST API 的 Projects_Create 作業。 根據下列指示來建構要求本文:
- 設定必要的
locale
屬性。 這應該是自主資料集的地區設定。 稍後無法變更此地區設定。 - 設定必要的
displayName
屬性。 這是顯示在 Speech Studio 中的專案名稱。
使用 URI 提出 HTTP POST 要求,如下列 Projects_Create 範例所示。 以您的語音資源金鑰取代 YourSubscriptionKey
、以您的語音資源區域取代 YourServiceRegion
,並設定要求本文屬性,如前所述。
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"displayName": "My Project",
"description": "My Project Description",
"locale": "en-US"
} ' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"
您應該會收到下列格式的回應本文:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
"links": {
"evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
"datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
"models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
"endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
"transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
},
"properties": {
"datasetCount": 0,
"evaluationCount": 0,
"modelCount": 0,
"transcriptionCount": 0,
"endpointCount": 0
},
"createdDateTime": "2024-07-14T17:15:55Z",
"locale": "en-US",
"displayName": "My Project",
"description": "My Project Description"
}
回應本文中最上層的 self
屬性為專案的 URI。 使用此 URI 來取得專案評估、資料集、模型、端點和轉譯的詳細資料。 您也可使用此 URI 來更新或刪除專案。
選擇您的模型
使用自訂語音模型的方法有幾個:
- 基底模型針對各種案例提供現成可用的語音辨識。 基底模型會定期更新,以改善精確度和品質。 建議您如果使用基底模型,請使用最新的預設基底模型。 如果必要的自訂功能僅適用於較舊的模型,則您可以選擇較舊的基底模型。
- 自訂模型會增強基底模型,以包含跨自訂定義域所有區域共用的定義域特定詞彙。
- 當自訂區域有多個區域,且每個區域都有特定的詞彙時,可以使用多個自訂模型。
有一建議方式可查看基底模型是否足夠,就是分析從基底模型產生的謄寫,並將其與同一音訊的人類產生文字記錄進行比較。 您可以比較文字記錄並取得字組錯誤率 (WER) 分數。 如果 WER 分數很高,建議訓練自訂模型來辨識未正確識別的字組。
如果詞彙會因領域區域而異,建議使用多個模型。 例如,Olympic 批註器會報告各種事件,每個事件都與自己的詞彙相關聯。 由於每個 Olympic 事件詞彙與其他詞彙皆有很大差異,因此建置事件特有的自訂模型會限制相對於該特定事件的語句資料,藉此提高精確度。 因此,模型不需要詳細檢查不相關的資料,也能進行比對。 無論如何,定型仍然需要各種不同的定型資料。 包括不同口音、性別、年齡等等各種留言者的音訊。
模型穩定性和生命週期
使用自訂語音部署至端點的基底模型或自訂模型已固定,直到您決定更新為止。 即使在釋出新的基底模型時,語音辨識精確度和品質仍會保持一致。 這可讓您鎖定特定模型的行為,直到您決定使用較新的模型為止。
不論您是定型自己的模型還是使用基底模型的快照集,您都可以在有限的時間內使用模型。 如需詳細資訊,請參閱模型和端點生命週期。