訓練您的用於健康醫療領域的自訂文字分析模型

發行項
12/19/2023

定型是模型從標記資料中學習的程序。完成定型後，您可以檢視模型的效能，並判斷是否需要改善模型。

若要定型模型，您可以啟動定型作業，而且只有順利完成的作業會建立模型。定型作業會在七天後到期，這表示您在此時間後無法擷取作業詳細資料。如果您的定型作業順利完成，且已建立模型，模型將不會受到影響。您一次只能執行一個定型作業，而且您無法在同一個專案中啟動其他作業。

根據資料集大小和結構描述的複雜度而定，在處理幾個文件時定型時間可以從幾分鐘到高達幾小時的時間。

必要條件

使用已設定 Azure Blob 儲存體帳戶成功建立的專案
已上傳至儲存體帳戶的文字資料。
標記的資料

如需詳細資訊，請參閱專案開發生命週期。

資料分割

開始定型程序之前，專案中加上標籤的文件會分成定型集和測試集。每一種都提供不同的功能。 定型集用於定型模型，這是模型從中學習標記實體的集合，以及哪些範圍的文字會擷取為實體。 測試集是一個盲集，不會在定型期間 (而是只在評估期間) 導入模型。模型定型成功完成之後，會使用模型從測試中的文件進行預測，並根據這些預測計算評估計量。模型定型和評估僅適用于具有已學習元件之新定義的實體;因此，健康情況實體文字分析會從模型定型和評估中排除，因為它們是具有預先建置元件的實體。建議您確定所有已加上標籤的實體都已適當地呈現在訓練集和測試集中。

健康情況的自訂文字分析支援兩種資料分割方法：

自動從定型資料分割測試集：系統會根據您選擇的百分比，在定型集與測試集之間分割標示的資料。建議的百分比分割是 80% 用於定型，20% 用於測試。

注意

如果您選擇 [從定型資料自動分割測試集] 選項，則只會根據提供的百分比來分割向定型集指派的資料。

使用手動分割定型和測試資料：此方法可讓使用者定義哪些具有標籤的文件應該屬於哪個集合。只有在您已在資料標記期間將文件新增至測試集時，才會啟用此步驟。

若要從 Language Studio 內開始定型模型：

從左側功能表中，選取 [定型工作]。
從頂端功能表中選取 [開始定型作業]。
選取 [定型新模型]，然後在文字方塊中輸入模型名稱。您也可以藉由選取此選項來覆寫現有的模型，然後從下拉式功能表中選擇您想要覆寫的模型。覆寫定型的模型是無法復原的，但在您部署新模型之前，不會影響已部署的模型。
選取資料分割方法。您可以選擇 [從定型資料自動分割測試集]，其中系統會根據指定的百分比，在定型與測試集之間分割標記的資料。或者，您可以使用 手動分割定型和測試資料，只有在您已將檔新增至測試集時，才會啟用此選項。如需資料分割的相關資訊，請參閱資料標記以及如何定型模型。
選取 [定型] 按鈕。
如果您從清單中選取 [訓練作業識別碼]，則會顯示側邊窗格，您可以在其中檢查此作業的 [訓練進度]、[ 作業狀態] 和其他詳細資料。
注意
- 只有成功完成的定型作業才會產生模型。
- 定型可能需要幾分鐘到數小時的時間，以標記的資料大小而定。
- 您一次只能執行一個定型作業。除非執行中作業完成，否則您無法在同一個專案內啟動其他定型作業。

開始定型作業

使用下列 URL、標頭和 JSON 本文來提交 POST 要求，以提交定型作業。以您自己的值取代預留位置值。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

預留位置	值	範例
`{ENDPOINT}`	用於驗證 API 要求的端點。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	您專案的名稱。此值區分大小寫。	`myProject`
`{API-VERSION}`	您所呼叫 API 的版本。此處參考的值適用於發行的最新版本。若要深入了解其他可用的 API 版本，請參閱模型生命週期。	`2022-05-01`

標題

使用下列標頭來驗證您的要求。

Key	值
`Ocp-Apim-Subscription-Key`	資源的索引鍵。用於驗證 API 要求。

要求本文

在您的要求本文中使用下列 JSON。模型會在定型完成後提供 {MODEL-NAME} 。只有成功的定型作業會產生模型。

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

答案	預留位置	值	範例
modelLabel	`{MODEL-NAME}`	成功定型後，指派給模型的模型名稱。	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	這是用來定型模型的模型版本。	`2022-05-01`
evaluationOptions		將您的資料分割到定型集和測試集的選項。	`{}`
kind	`percentage`	分割方法。可能的值為 `percentage` 或 `manual`。如需詳細資訊，請參閱如何定型模型。	`percentage`
trainingSplitPercentage	`80`	要包含在定型集中的標記資料百分比。建議值為 `80`。	`80`
testingSplitPercentage	`20`	要包含在測試集中的標記資料百分比。建議值為 `20`。	`20`

注意

只有在 Kind 設定為 percentage 且這兩個百分比的總和應該等於 100 時，才需要 trainingSplitPercentage 和 testingSplitPercentage。

傳送 API 要求之後，您將會收到 202 回應，指出作業已正確提交。在回應標頭中，擷取 location 值。其格式如下：

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} 是用來識別您的要求，因為此為非同步作業。您可以使用此 URL 來取得定型狀態。

取得定型作業狀態

定型有時可能會視定型資料大小和結構描述的複雜度而定。您可以使用下列要求來持續輪詢定型作業的狀態，直到成功完成為止。

使用下列 GET 要求來取得模型定型程序的狀態。請以您自己的值取代下列預留位置值。

要求 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

預留位置	值	範例
`{ENDPOINT}`	用於驗證 API 要求的端點。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	您專案的名稱。此值區分大小寫。	`myProject`
`{JOB-ID}`	用來尋找模型定型狀態的識別碼。此值是在上一個步驟中收到的 `location` 標頭值。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	您所呼叫 API 的版本。此處參考的值適用於發行的最新版本。若要深入了解其他可用的 API 版本，請參閱模型生命週期。	`2022-05-01`

標題

使用下列標頭來驗證您的要求。

Key	值
`Ocp-Apim-Subscription-Key`	資源的索引鍵。用於驗證 API 要求。

回應本文

傳送要求之後，您會收到下列回應。

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

取消定型作業

Language Studio
REST API

若要從 Language Studio 內取消定型作業，請移至 [定型作業] 頁面。選取您想要取消的訓練作業，然後從頂端功能表中選取 [ 取消 ]。

使用下列 URL、標頭和 JSON 本文來建立 POST 要求，以取消定型工作。

要求 URL

建立 API 要求時，請使用下列 URL。請以您自己的值取代下列預留位置值。

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

預留位置	值	範例
`{ENDPOINT}`	用於驗證 API 要求的端點。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	您專案的名稱。此值區分大小寫。	`EmailApp`
`{JOB-ID}`	此值是定型工作識別碼。	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	您所呼叫 API 的版本。所參考的值適用於最新發行的模型版本。	`2022-05-01`

標題

使用下列標頭來驗證您的要求。

Key	值
`Ocp-Apim-Subscription-Key`	資源的索引鍵。用於驗證 API 要求。

傳送 API 要求之後，您會收到 202 回應，其中包含用來檢查作業狀態的 Operation-Location 標頭。

後續步驟

定型完成後，您將能夠檢視模型的效能，視需要選擇性地改善模型。在對模型感到滿意之後，您就可以將其部署並用於從文字中擷取實體。

共用方式為

訓練您的用於健康醫療領域的自訂文字分析模型

必要條件

資料分割

定型模型

開始定型作業

標題

要求本文

取得定型作業狀態

要求 URL

標題

回應本文

取消定型作業

要求 URL

標題

後續步驟

意見反應

意見反應

其他資源