你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

如何训练自定义文本分类模型

2024-11-21

训练是模型从标记的数据进行学习的过程。完成训练后，可通过查看模型的性能来确定是否需要改进模型。

若要训练模型，请启动训练作业。只有已成功完成的作业才能创建可用模型。训练作业在七天后过期。在此时间段之后，将无法检索作业详细信息。如果成功完成训练作业并创建了模型，则作业过期不会影响该模型。你在同一时间只能有一个训练作业处于运行状态，并且无法在同一项目中启动其他作业。

处理少量文档时，训练时间可从几分钟到几小时不等，具体取决于数据集大小和架构的复杂性。

先决条件

在训练模型之前，需要：

一个成功创建的项目，并配置了 Azure Blob 存储帐户，
已上传到存储帐户的文本数据。
标记的数据

有关详细信息，请参阅项目开发生命周期。

数据拆分

开始训练过程之前，项目中标记的文档会划分为训练集和测试集。其中的每一个都有不同的功能。训练集用于训练模型，这是模型从中学习分配给每个文档的类的集合。测试集是一个盲集，它不是在训练期间引入到模型的，而是在评估期间引入的。成功训练模型后，它将用于根据测试集中的文档进行预测。根据这些预测，将会计算模型的评估指标。建议确保所有类在训练集和测试集中均已充分表示。

自定义文本分类支持两种数据拆分方法：

自动从训练数据拆分测试集：系统将根据所选百分比将标记的数据拆分为训练集和测试集。系统将尝试表示训练集中的所有类。建议的拆分百分比为 80% 用于训练，20% 用于测试。

注意

如果选择“自动从训练数据拆分测试集”选项，则只有分配给训练集的数据会按照提供的百分比拆分。

使用手动拆分训练和测试数据：此方法使用户能够定义标记的文档应分别属于哪个集合。仅当在数据标记期间已将文档添加到测试集时，才会启用此步骤。

若要在 Language Studio 中开始训练模型，请执行以下操作：

在左侧菜单中，选择“训练作业”。
从顶部菜单中选择“启动训练作业”。
然后选择“训练新模型”并在文本框中键入模型名称。还可以通过选择“覆盖现有模型”选项并从下拉菜单中选择要覆盖的模型来覆盖现有模型。覆盖已训练的模型是不可逆的，但这在部署新模型之前不会影响已部署的模型。
选择数据拆分方法。可以选择“从训练数据中自动拆分测试集”，系统将根据指定的百分比在训练集和测试集之间拆分标记数据。也可以选择“使用手动拆分训练和测试数据”，仅当在数据标记期间已将文档添加到测试集时才会启用此选项。有关数据拆分的详细信息，请参阅如何训练模型。
选择“训练”按钮。
如果从列表中选择训练作业 ID，则会显示一个侧窗格，可在其中检查此作业的“训练进度”、“作业状态”和其他详细信息。
注意
- 只有成功完成的训练作业才会生成模型。
- 训练模型所需的时间可能在几分钟到几个小时之间，具体取决于你标记的数据的大小。
- 一次只能运行一个训练作业。在运行的作业完成之前，无法在同一项目中启动其他训练作业。

启动训练作业

使用以下 URL、标头和 JSON 正文提交 POST 请求以提交训练作业。请将以下占位符值替换为你自己的值。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`myProject`
`{API-VERSION}`	要调用的 API 版本。此处引用的值适用于最新发布的版本。详细了解其他可用的 API 版本	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

键	值
`Ocp-Apim-Subscription-Key`	资源密钥。用于对 API 请求进行身份验证。

请求正文

在请求正文中使用以下 JSON。完成训练后，该模型将被命名为 {MODEL-NAME}。只有成功的训练作业才会生成模型。

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

密钥	占位符	值	示例
modelLabel	`{MODEL-NAME}`	成功训练后将分配给模型的模型名称。	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	这是用于训练模型的模型版本。	`2022-05-01`
evaluationOptions		用于将数据拆分为训练集和测试集的选项。	`{}`
kind	`percentage`	拆分方法。可能的值为 `percentage` 或 `manual`。有关详细信息，请参阅如何训练模型。	`percentage`
trainingSplitPercentage	`80`	要包含在训练集中的已标记数据的百分比。建议的值为 `80`。	`80`
testingSplitPercentage	`20`	要包含在测试集中的已标记数据的百分比。建议的值为 `20`。	`20`

注意

仅当 Kind 设置为 percentage 时 trainingSplitPercentage 和 testingSplitPercentage 才是必需的，并且两个百分比的总和应等于 100。

发送 API 请求后，你将收到 202 响应，这表明作业已正确提交。在响应头中，提取 location 值。其格式如下：

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} 用于标识请求，因为此操作是异步操作。可以使用此 URL 获取训练状态。

获取训练作业状态

训练可能需要一些时间，具体取决于训练数据的大小和架构的复杂性。可以使用以下请求持续轮询训练作业的状态，直到成功完成训练作业。

使用以下 GET 请求来获取模型在训练过程中的状态。请将以下占位符值替换为你自己的值。

请求 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`myProject`
`{JOB-ID}`	用于查找模型训练状态的 ID。该值包含在上一步骤中收到的 `location` 标头值中。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	要调用的 API 版本。此处引用的值适用于最新发布的版本。请参阅模型生命周期，了解有关其他可用 API 版本的详细信息。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

键	值
`Ocp-Apim-Subscription-Key`	资源密钥。用于对 API 请求进行身份验证。

响应正文

发送请求后，你将获得以下响应。

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

取消训练作业

Language Studio
REST API

要在 Language Studio 中取消训练作业，请转到“训练作业”页。选择要取消的训练作业，然后选择顶部菜单中的“取消”。

使用以下 URL、标头和 JSON 正文创建 POST 请求，以取消训练作业。

请求 URL

创建 API 请求时，请使用以下 URL。请将以下占位符值替换为你自己的值。

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`EmailApp`
`{JOB-ID}`	此值是训练作业 ID。	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	要调用的 API 版本。引用的值适用于最新发布的模型版本。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

键	值
`Ocp-Apim-Subscription-Key`	资源密钥。用于对 API 请求进行身份验证。

发送 API 请求后，将收到 202 响应，其中包含用于检查作业状态的 Operation-Location 标头。

后续步骤

完成训练后，将能够查看模型的性能，并可以根据需要选择改进模型。对模型感到满意后，就可以部署模型，使其可用于对文本进行分类。

通过

如何训练自定义文本分类模型

先决条件

数据拆分

定型模型

取消训练作业

后续步骤

反馈

其他资源