你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

接受的数据格式

如果尝试将数据导入自定义文本分类,则必须遵循特定格式。 如果没有要导入的数据,则可以创建项目,并使用 Language Studio 标记文档

标签文件格式

标签文件应采用以下 json 格式。 这样,就可以将标签导入项目中。

{
    "projectFileVersion": "2022-05-01",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
      "projectKind": "CustomMultiLabelClassification",
      "storageInputContainerName": "{CONTAINER-NAME}",
      "projectName": "{PROJECT-NAME}",
      "multilingual": false,
      "description": "Project-description",
      "language": "en-us"
    },
    "assets": {
      "projectKind": "CustomMultiLabelClassification",
      "classes": [
        {
          "category": "Class1"
        },
        {
          "category": "Class2"
        }
      ],
      "documents": [
          {
              "location": "{DOCUMENT-NAME}",
              "language": "{LANGUAGE-CODE}",
              "dataset": "{DATASET}",
              "classes": [
                  {
                      "category": "Class1"
                  },
                  {
                      "category": "Class2"
                  }
              ]
          }
      ]
  }
密钥 占位符 示例
多语言 true 通过布尔值,你可以在数据集中有多种语言的文档,并且在部署模型时可以使用任何支持的语言(不一定包含在训练文档中)查询模型。 请参阅语言支持,了解有关多语言支持的详细信息。 true
projectName {PROJECT-NAME} 项目名称 myproject
storageInputContainerName {CONTAINER-NAME} 容器名称 mycontainer
[] 包含项目中所有类的数组。 这些是要将文档分类的类。 []
文档 [] 包含项目中所有文档以及为此文档标记类的数组。 []
location {DOCUMENT-NAME} 存储容器中文档的位置。 由于所有文档都位于容器的根目录中,因此此值应为文档名称。 doc1.txt
dataset {DATASET} 该文件在训练前被拆分时将进入的测试集。 有关详细信息,请参阅如何训练模型。 此字段的可能值为 TrainTest Train

后续步骤

  • 可以直接将标记的数据导入到项目中。 请参阅如何创建项目了解有关导入项目的详细信息。
  • 请参阅操作说明文章了解有关如何标记数据的详细信息。 完成数据标记后,可以训练模型