你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

训练健康状况自定义文本分析模型

项目
12/19/2023

训练是模型从标记的数据中学习的过程。完成训练后，可通过查看模型的性能来确定是否需要改进模型。

若要训练模型，请启动训练作业，只有成功完成的作业才能创建模型。培训作业将在七天后过期，这意味着你将无法在此时间之后检索作业详细信息。如果成功完成训练作业并创建了模型，则该模型不会受到影响。一次只能运行一个训练作业，并且无法在同一项目中启动其他作业。

处理少量文档时，训练时间可从几分钟到几小时不等，具体取决于数据集大小和架构的复杂性。

先决条件

一个成功创建的项目，并配置了 Azure Blob 存储帐户
已上传到存储帐户的文本数据。
标记的数据

有关详细信息，请参阅项目开发生命周期。

数据拆分

开始训练过程之前，项目中标记的文档会划分为训练集和测试集。每个集合都有不同的功能。训练集用于训练模型，该集合是模型从中学习标记的实体的集合以及要提取为实体的文本范围。测试集是一个盲集，它不是在训练期间引入到模型的，而是在评估期间引入的。成功完成模型训练后，将使用模型根据测试中的文档进行预测，并根据这些预测计算评估指标。模型训练和评估仅适用于具有已学习组件的新定义的实体；因此，健康状况文本分析实体被排除在模型训练和评估之外，因为它们是具有预生成组件的实体。建议确保所有标记的实体在训练集和测试集中都能充分表示。

健康状况自定义文本分析支持两种数据拆分方法：

自动从训练数据拆分测试集：系统将根据所选百分比将标记的数据拆分为训练集和测试集。建议的拆分百分比为 80% 用于训练，20% 用于测试。

注意

如果选择“自动从训练数据拆分测试集”选项，则只有分配给训练集的数据会按照提供的百分比拆分。

使用手动拆分训练和测试数据：此方法使用户能够定义标记的文档应分别属于哪个集合。仅当在数据标记期间已将文档添加到测试集时，才会启用此步骤。

若要在 Language Studio 中开始训练模型，请执行以下操作：

在左侧菜单中，选择“训练作业”。
从顶部菜单中选择“启动训练作业”。
然后选择“训练新模型”并在文本框中键入模型名称。还可以通过选择“覆盖现有模型”选项并从下拉菜单中选择要覆盖的模型来覆盖现有模型。覆盖已训练的模型是不可逆的，但这在部署新模型之前不会影响已部署的模型。
选择数据拆分方法。可以选择“从训练数据中自动拆分测试集”，系统将根据指定的百分比在训练集和测试集之间拆分标记数据。也可以选择“使用手动拆分训练和测试数据”，仅当已将文档添加到测试集时才会启用此选项。有关数据拆分的信息，请参阅数据标签和如何训练模型。
选择“训练”按钮。
如果从列表中选择训练作业 ID，则会显示一个侧窗格，可在其中检查此作业的“训练进度”、“作业状态”和其他详细信息。
注意
- 只有成功完成的训练作业才会生成模型。
- 训练可能需要几分钟到几个小时，具体取决于已标记数据的大小。
- 一次只能运行一个训练作业。在运行的作业完成之前，无法在同一项目中启动其他训练作业。

启动训练作业

使用以下 URL、标头和 JSON 正文提交 POST 请求以提交训练作业。将占位符值替换为你自己的值。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`myProject`
`{API-VERSION}`	要调用的 API 版本。此处引用的值适用于最新发布的版本。请参阅模型生命周期，了解有关其他可用 API 版本的详细信息。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

键	值
`Ocp-Apim-Subscription-Key`	资源密钥。用于对 API 请求进行身份验证。

请求正文

在请求正文中使用以下 JSON。完成训练后，该模型将命名为 {MODEL-NAME}。只有成功的训练作业才会生成模型。

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

密钥	占位符	值	示例
modelLabel	`{MODEL-NAME}`	成功训练后，将会分配给模型的模型名称。	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	这是用于训练模型的模型版本。	`2022-05-01`
evaluationOptions		用于将数据拆分为训练集和测试集的选项。	`{}`
kind	`percentage`	拆分方法。可能的值为 `percentage` 或 `manual`。有关详细信息，请参阅如何训练模型。	`percentage`
trainingSplitPercentage	`80`	要包含在训练集中的已标记数据的百分比。建议的值为 `80`。	`80`
testingSplitPercentage	`20`	要包含在测试集中的已标记数据的百分比。建议的值为 `20`。	`20`

注意

仅当 Kind 设置为 percentage 时 trainingSplitPercentage 和 testingSplitPercentage 才是必需的，并且两个百分比的总和应等于 100。

发送 API 请求后，你将收到 202 响应，这表明作业已正确提交。在响应头中，提取 location 值。它的格式如下：

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} 用于标识请求，因为此操作是异步操作。可以使用此 URL 获取训练状态。

获取训练作业状态

训练可能需要一些时间，具体取决于训练数据的大小和架构的复杂性。可以使用以下请求继续轮询训练作业的状态，直到成功完成训练。

使用以下 GET 请求来获取模型在训练过程中的状态。请将以下占位符值替换为你自己的值。

请求 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`myProject`
`{JOB-ID}`	用于查找模型训练状态的 ID。该值包含在上一步骤中收到的 `location` 标头值中。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	要调用的 API 版本。此处引用的值适用于最新发布的版本。请参阅模型生命周期，了解有关其他可用 API 版本的详细信息。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

键	值
`Ocp-Apim-Subscription-Key`	资源密钥。用于对 API 请求进行身份验证。

响应正文

发送请求后，你将获得以下响应。

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

取消训练作业

Language Studio
REST API

若要在 Language Studio 中取消训练作业，请转到“训练作业”页。选择要取消的训练作业，然后选择顶部菜单中的“取消”。

使用以下 URL、标头和 JSON 正文创建 POST 请求，以取消训练作业。

请求 URL

创建 API 请求时，请使用以下 URL。请将以下占位符值替换为你自己的值。

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`EmailApp`
`{JOB-ID}`	此值是训练作业 ID。	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	要调用的 API 版本。引用的值适用于最新发布的模型版本。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

键	值
`Ocp-Apim-Subscription-Key`	资源密钥。用于对 API 请求进行身份验证。

发送 API 请求后，将收到 202 响应，其中包含用于检查作业状态的 Operation-Location 标头。

后续步骤

完成训练后，将能够查看模型的性能，并可以根据需要选择改进模型。对模型感到满意后，就可以部署模型，使其可用于从文本中提取实体。

通过

训练健康状况自定义文本分析模型

先决条件

数据拆分

定型模型

取消训练作业

后续步骤

其他资源