你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

接受的自定义 NER 数据格式

如果尝试将数据导入自定义 NER，必须遵循特定格式。如果没有要导入的数据，可以创建项目并使用 Microsoft Foundry 标记文档。

标签文件格式

标签文件应为 json 格式，以便将标签导入项目中。

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

密钥	占位符	值	示例
`multilingual`	`true`	通过布尔值，你可以在数据集中有多种语言的文档，并且在部署模型时可以使用任何支持的语言（不一定包含在训练文档中）查询模型。请参阅语言支持，了解有关多语言支持的详细信息。	`true`
`projectName`	`{PROJECT-NAME}`	项目名称	`myproject`
storageInputContainerName	`{CONTAINER-NAME}`	容器名称	`mycontainer`
`entities`		一个数组，其中包含项目中的所有实体类型。从文档中提取的实体类型。
`documents`		一个数组，其中包含项目中的所有文档和每个文档中标记的实体列表。	[]
`location`	`{DOCUMENT-NAME}`	存储容器中文档的位置。由于所有文档都位于容器的根目录中，因此此位置应为文档名称。	`doc1.txt`
`dataset`	`{DATASET}`	此文件在训练前拆分时将归类到的测试集。可在此处了解有关数据拆分的详细信息。此字段的可能值为 `Train` 和 `Test`。	`Train`
`regionOffset`		文本开头的非独占字符位置。	`0`
`regionLength`		以 UTF16 字符表示的边界框长度。训练仅考虑此区域的数据。	`500`
`category`		与指定文本跨度关联的实体类型。	`Entity1`
`offset`		实体文本的起始位置。	`25`
`length`		以 UTF16 字符表示的实体长度。	`20`
`language`	`{LANGUAGE-CODE}`	指定项目中所使用文档的语言代码的字符串。如果项目是多语言项目，请选择大部分文档的语言代码。有关详细信息，请参阅语言支持。	`en-us`

后续步骤

可以直接将标记的数据导入到项目中。了解如何导入项目
请参阅操作说明文章，了解有关如何标记数据的详细信息。完成数据标记后，可以训练模型。

反馈

此页面是否有帮助？

Last updated on 2025-11-18

通过

接受的自定义 NER 数据格式

标签文件格式

后续步骤

反馈

其他资源