如何定型自訂文字分類模型

發行項
10/16/2024

定型是模型從標記資料中學習的流程。定型完成後，您將能夠檢視模型的效能，以判斷是否需要改善模型。

若要定型模型，請啟動定型作業。只有成功完成的作業才能建立可用的模型。定型作業會在七天後到期。在此期間之後，您將無法擷取作業詳細資料。如果您的定型作業順利完成，且已建立模型，模型將不會受到作業到期的影響。您一次只能執行一個定型作業，而且您無法在同一個專案中啟動其他作業。

根據資料集大小和結構描述的複雜度而定，在處理幾個文件時定型時間可以從幾分鐘到高達幾小時的時間。

必要條件

在定型模型之前，您必須具備：

已成功建立的專案，其中已設定 Azure Blob 儲存體帳戶，
已上傳至您儲存體帳戶的文字資料。
已標記的資料

如需詳細資訊，請參閱專案開發生命週期。

資料分割

開始定型程序之前，專案中加上標籤的文件會分成定型集和測試集。每一個都提供不同的功能。 定型集用於定型模型，這是模型學習指派給每份文件一或多個類別的來源集合。 測試集是一個盲集，不會在定型期間 (而是只在評估期間) 引入模型。成功定型模型之後，會用來從測試集中的文件進行預測。根據這些預測，將會計算模型的評估計量。建議您確定所有類別都已充分呈現在定型和測試集中。

自訂文字分類支援兩種資料分割方法：

從定型資料自動分割測試集：系統會根據選擇的百分比，在定型與測試集之間分割已標示資料。系統會嘗試呈現定型集中的所有類別。建議的百分比分割是 80% 用於定型，20% 用於測試。

注意

如果您選擇 [從定型資料自動分割測試集] 選項，則只會根據提供的百分比來分割向定型集指派的資料。

使用手動分割定型和測試資料：此方法可讓使用者定義哪些具有標籤的文件應該屬於哪個集合。只有在您已在資料標記期間將文件新增至測試集時，才會啟用此步驟。

若要從 Language Studio 內開始定型模型：

從左側功能表中，選取 [定型工作]。
從頂端功能表中選取 [開始定型作業]。
選取 [定型新模型]，然後在文字方塊中輸入模型名稱。您也可以藉由選取此選項來覆寫現有的模型，然後從下拉式功能表中選擇您想要覆寫的模型。覆寫定型的模型是無法復原的，但在您部署新模型之前，不會影響已部署的模型。
選取資料分割方法。您可以選擇 [從定型資料自動分割測試集]，其中系統會根據指定的百分比，在定型集與測試集之間分割標記的資料。或者，您可以使用手動分割定型和測試資料，只有在資料標記期間已將文件新增至測試集時，才會啟用此選項。如需資料分割的詳細資訊，請參閱如何定型模型。
選取 [定型] 按鈕。
如果您從清單中選取 [定型作業識別碼]，則會顯示側邊窗格，您可以在其中檢查此作業的 [定型進度]、[作業狀態] 和其他詳細資料。
注意
- 只有成功完成的定型作業才會產生模型。
- 根據標籤資料的大小，定型模型所需的時間可能需要幾分鐘到數小時的時間。
- 您一次只能執行一個定型作業。除非執行中的作業完成，否則無法在同一個專案內啟動其他定型作業。

開始定型作業

使用下列 URL、標頭和 JSON 本文來提交 POST 要求，以提交定型作業。請以您自己的值取代下列預留位置值。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

預留位置	值	範例
`{ENDPOINT}`	用於驗證 API 要求的端點。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	您專案的名稱。此值區分大小寫。	`myProject`
`{API-VERSION}`	您正在呼叫的 API 版本。此處參考的值適用於發行的最新版本。深入了解其他可用的 API 版本	`2022-05-01`

標頭

使用下列標頭來驗證您的要求。

機碼	值
`Ocp-Apim-Subscription-Key`	資源的金鑰。用於驗證 API 要求。

要求本文

在您的要求本文中使用下列 JSON。定型完成之後，該模型將被賦予 {MODEL-NAME}。只有成功的定型作業會產生模型。

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

機碼	預留位置	值	範例
modelLabel	`{MODEL-NAME}`	成功定型後，將指派給模型的模型名稱。	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	這是將用來定型模型的模型版本。	`2022-05-01`
evaluationOptions		將您的資料分割到定型和測試集的選項。	`{}`
kind	`percentage`	分割方法。可能的值為 `percentage` 或 `manual`。如需詳細資訊，請參閱如何定型模型。	`percentage`
trainingSplitPercentage	`80`	要包含在定型集中的標記資料百分比。建議的值為 `80`。	`80`
testingSplitPercentage	`20`	要包含在測試集中的標記資料百分比。建議的值為 `20`。	`20`

注意

只有在 Kind 設定為 percentage 且這兩個百分比的總和應該等於 100 時，才需要 trainingSplitPercentage 和 testingSplitPercentage。

傳送 API 要求之後，您將會收到 202 回應，指出作業已正確提交。在回應標頭中，擷取 location 值。其格式如下：

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} 用來識別您的要求，因為此為非同步作業。您可以使用此 URL 來取得定型狀態。

取得定型作業狀態

定型有時可能會視定型資料大小和結構描述構的複雜度而定。您可以使用下列要求來持續輪詢定型作業的狀態，直到成功完成為止。

使用下列 GET 要求來取得模型定型程序的狀態。請以您自己的值取代下列預留位置值。

要求 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

預留位置	值	範例
`{ENDPOINT}`	用於驗證 API 要求的端點。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	您專案的名稱。此值區分大小寫。	`myProject`
`{JOB-ID}`	用來尋找模型定型狀態的識別碼。此值是在上一個步驟中收到的 `location` 標頭值。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	您正在呼叫的 API 版本。此處參考的值適用於發行的最新版本。若要深入了解其他可用的 API 版本，請參閱模型生命週期。	`2022-05-01`

標頭

使用下列標頭來驗證您的要求。

機碼	值
`Ocp-Apim-Subscription-Key`	資源的金鑰。用於驗證 API 要求。

回應本文

傳送要求之後，您會收到下列回應。

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

取消定型作業

Language Studio
REST API

若要在 Language Studio 中取消定型工作，請移至 [定型工作] 頁面。選取您想要取消的定型作業，然後選取頂端功能表中的 [取消]。

使用下列 URL、標頭和 JSON 本文來建立 POST 要求，以取消定型工作。

要求 URL

建立 API 要求時，請使用下列 URL。請以您自己的值取代下列預留位置值。

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

預留位置	值	範例
`{ENDPOINT}`	用於驗證 API 要求的端點。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	專案名稱。此值區分大小寫。	`EmailApp`
`{JOB-ID}`	此值是定型工作識別碼。	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	您所呼叫 API 的版本。所參考的值適用於最新發行的模型版本。	`2022-05-01`

標頭

使用下列標頭來驗證您的要求。

機碼	值
`Ocp-Apim-Subscription-Key`	資源的金鑰。用於驗證 API 要求。

傳送 API 要求之後，您會收到 202 回應，其中包含用來檢查作業狀態的 Operation-Location 標頭。

下一步

定型完成後，您將能夠檢視模型的效能，以視需要選擇性地改善模型。對模型感到滿意之後，您就可以部署該模型，使其可用於對文字進行分類。

共用方式為

如何定型自訂文字分類模型

必要條件

資料分割

定型模型

開始定型作業

標頭

要求本文

取得定型作業狀態

要求 URL

標頭

回應本文

取消定型作業

要求 URL

標頭

下一步

意見反應

其他資源