你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

训练自定义命名实体识别模型

训练是模型从标记的数据进行学习的过程。完成训练后，可通过查看模型的性能来确定是否需要改进模型。

若要训练模型，请启动训练作业，只有成功完成的作业才能创建模型。培训作业将在七天后过期，这意味着你将无法在此时间之后检索作业详细信息。如果训练作业成功完成并创建了模型，则模型不会受到影响。你在同一时间只能有一个训练作业处于运行状态，并且无法在同一项目中启动其他作业。

训练时间各不相同。训练时间可以从几分钟到几个小时不等，这取决于处理的文档数量、数据集的大小以及架构的复杂性。

Prerequisites

一个成功创建的项目，并配置了 Azure Blob 存储帐户
上传到存储帐户的文本数据。
标记的数据

请参阅项目开发生命周期。

数据拆分

开始训练过程之前，项目中标记的文档会划分为训练集和测试集。其中的每一个都有不同的功能。 训练集用于训练模型。它是模型用于学习标记实体的集合，以及要提取为实体的文本范围。测试集是一个盲集，它不是在训练期间引入到模型的，而是在评估期间引入的。模型训练成功完成后，模型用于从测试文档进行预测，并计算评估指标。建议确保所有实体在训练集和测试集中均有充分体现。

自定义 NER 支持两种数据拆分方法：

自动从训练数据拆分测试集：系统根据所选的百分比在训练集和测试集之间拆分标记的数据。建议的拆分百分比为 80% 用于训练，20% 用于测试。

注意

如果选择 自动从训练数据中拆分测试集 选项，则只根据提供的百分比拆分分配给训练集的数据。

使用手动拆分训练和测试数据：此方法使用户能够定义标记的文档应分别属于哪个集合。仅当在数据标记过程中将文档添加到测试集时，才启用此步骤。

若要在 Language Studio 中开始训练模型，请执行以下操作：

在左侧菜单中，选择“训练作业”。
从顶部菜单中选择“启动训练作业”。
然后选择“训练新模型”并在文本框中键入模型名称。还可以选择“覆盖现有模型”选项，并从下拉菜单中选择要覆盖的模型来覆盖现有模型。覆盖已训练模型的操作不可逆，但在部署新模型之前，不会影响已部署的模型。
选择数据拆分方法。可以根据指定的百分比选择 从训练数据中自动拆分测试集 ，其中系统在训练集和测试集之间拆分标记的数据。或者，可以使用 手动拆分训练和测试数据，仅当在数据标记期间将文档添加到测试集时，才启用此选项。有关数据拆分的信息，请参阅如何训练模型。
选择“训练”按钮。
如果从列表中选择“训练作业 ID”，将显示一个侧窗格，可在其中检查此作业的 “训练进度”、“ 作业状态”和其他详细信息。
注意
- 只有成功完成的训练作业才能生成模型。
- 训练可能需要几分钟到几个小时，具体取决于已标记数据的大小。
- 一次只能运行一个训练作业。在运行的作业完成之前，无法在同一项目中启动其他训练作业。

启动训练作业

使用以下 URL、标头和 JSON 正文提交 POST 请求以提交训练作业。将占位符中的值替换为您自己的值。

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`myProject`
`{API-VERSION}`	要调用的 API 版本。引用的值适用于已发布的最新版本。有关详细信息，请参阅模型生命周期。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

密钥	值
`Ocp-Apim-Subscription-Key`	资源的密钥。用于对 API 请求进行身份验证。

请求正文

在请求正文中使用以下 JSON。完成训练后，该模型将命名为 {MODEL-NAME}。只有成功的训练作业才能生成模型。

{
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "evaluationOptions": {
        "kind": "percentage",
        "trainingSplitPercentage": 80,
        "testingSplitPercentage": 20
    }
}

密钥	占位符	值	示例
modelLabel	`{MODEL-NAME}`	成功训练后，将会分配给模型的模型名称。	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	这是用于训练模型的模型版本。	`2022-05-01`
evaluationOptions		用于将数据拆分为训练集和测试集的选项。	`{}`
kind	`percentage`	拆分方法。可能的值为 `percentage` 或 `manual`。有关详细信息，请参阅如何训练模型。	`percentage`
trainingSplitPercentage	`80`	要包含在训练集中的已标记数据的百分比。建议的值为 `80`。	`80`
testingSplitPercentage	`20`	要包含在测试集中的已标记数据的百分比。建议的值为 `20`。	`20`

注意

仅当 Kind 设置为 percentage 时 trainingSplitPercentage 和 testingSplitPercentage 才是必需的，并且两个百分比的总和应等于 100。

发送 API 请求后，会收到一个 202 响应，指示作业已正确提交。在响应标头中，提取 location 格式如下的值：

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} 用于标识请求，因为此操作是异步操作。可以使用此 URL 获取训练状态。

获取训练作业状态

训练可能需要一些时间，具体取决于训练数据和架构的复杂性。可使用以下请求继续轮询训练作业的状态，直到成功完成。

使用以下 GET 请求来获取模型训练过程的状态。将占位符中的值替换为您自己的值。

请求 URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目名称。此值区分大小写。	`myProject`
`{JOB-ID}`	用于查找模型训练状态的 ID。该值位于你在上一步骤中收到的 `location` 标头值中。	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	要调用的 API 版本。引用的值适用于已发布的最新版本。有关详细信息，请参阅模型生命周期。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

密钥	值
`Ocp-Apim-Subscription-Key`	资源的密钥。用于对 API 请求进行身份验证。

响应正文

发送请求后，会收到以下响应。

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

取消训练作业

Language Studio
REST API

若要在 Language Studio 中取消训练作业，请转到“训练作业”页。选择要取消的训练作业，然后选择顶部菜单中的“取消”。

使用以下 URL、标头和 JSON 正文创建 POST 请求，以取消训练作业。

请求 URL

创建 API 请求时，请使用以下 URL。将占位符中的值替换为您自己的值。

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

占位符	值	示例
`{ENDPOINT}`	用于对 API 请求进行身份验证的终结点。	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	项目的名称。此值区分大小写。	`EmailApp`
`{JOB-ID}`	此值是训练作业 ID。	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	要调用的 API 版本。引用的值适用于最新发布的模型版本。	`2022-05-01`

头文件

使用以下标头对请求进行身份验证。

密钥	值
`Ocp-Apim-Subscription-Key`	资源的密钥。用于对 API 请求进行身份验证。

发送 API 请求后，会收到一个 202 响应，其中包含 Operation-Location 用于检查作业状态的标头。

Next steps

完成训练后，将能够查看模型性能，并在需要时选择改进模型。对模型感到满意后，就可以部署模型，使其可用于从文本中提取实体。

反馈

此页面是否有帮助？

Last updated on 2025-11-20

通过

训练自定义命名实体识别模型

Prerequisites

数据拆分

定型模型

取消训练作业

Next steps

反馈

其他资源