你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

对话语言理解接受的数据格式

项目
12/19/2023

如果要将数据上传到 CLU，数据必须遵循特定格式，请通过本文详细了解接受的数据格式。

导入项目文件格式

如果要将项目导入 CLU，则上传的文件必须采用以下格式。

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

密钥	占位符	值	示例
`{API-VERSION}`	要调用的 API 的版本。	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	这是一个阈值分数，低于此分数的意向将被预测为无意向。值的范围是 `0` 到 `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	项目名称。此值区分大小写。	`EmailApp`
`multilingual`	`true`	一个布尔值，它让你可以在数据集中拥有多种语言的语句，并且在部署模型时可以使用任何支持的语言（不一定包含在训练文档中）查询模型。有关受支持的语言代码的详细信息，请参阅语言支持。	`true`
`sublists`	`[]`	包含子列表的数组。每个子列表都包含一个键及其关联的值。	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	定义如何在实体中管理多个组件的规则。选项是 `combineComponents` 或 `separateComponents`。	`combineComponents`
`synonyms`	`[]`	包含所有同义词的数组	同义词 (synonym)
`language`	`{LANGUAGE-CODE}`	指定项目中所用语句、同义词和正则表达式的语言代码的字符串。如果项目是多语言项目，请选择大多数语句的语言代码。	`en-us`
`intents`	`[]`	一个数组，其中包含项目中的所有意向。这些是将从语句中分类的意向。	`[]`
`entities`	`[]`	包含项目中所有实体的数组。这些是将从语句中提取的实体。每个实体都可以使用它们定义额外的可选组件：list、prebuilt 或 regex。	`[]`
`dataset`	`{DATASET}`	此语句在训练前拆分时将归类到的测试集。可在此处了解有关数据拆分的详细信息。此字段的可能值为 `Train` 和 `Test`。	`Train`
`category`		与指定文本跨度关联的实体类型。	`Entity1`
`offset`		实体开头的非独占字符位置。	`5`
`length`		实体的字符长度。	`5`
`listKey`		在预测中要映射回的同义词列表的规范化值。	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	将完全匹配的逗号分隔字符串的列表，用于提取并映射到列表键。	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	在预测中正则表达式要映射回的规范化值。	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	一个正则表达式。	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	可以提取常见类型的预生成组件。在此处可以找到可添加的预生成列表。	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	指定要求存在特定组件以返回实体的设置。可在此处了解详细信息。可能的值为 `learned`、`regex`、`list` 或 `prebuilts`	`"learned", "prebuilt"`

语句文件格式

CLU 提供将语句直接上传到项目的选项，用户不必逐一键入它们。可以在项目的数据标签页中找到此选项。

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

密钥	占位符	值	示例
`text`	`{Utterance-Text}`	你的语句文本	正在测试
`language`	`{LANGUAGE-CODE}`	指定项目中所用语句的语言代码的字符串。如果项目是多语言项目，请选择大多数语句的语言代码。有关受支持的语言代码的详细信息，请参阅语言支持。	`en-us`
`dataset`	`{DATASET}`	此语句在训练前拆分时将归类到的测试集。可在此处了解有关数据拆分的详细信息。此字段的可能值为 `Train` 和 `Test`。	`Train`
`intent`	`{intent}`	分配的意向	intent1
`entity`	`{entity}`	要提取的实体	entity1
`category`		与指定文本跨度关联的实体类型。	`Entity1`
`offset`		文本开头的非独占字符位置。	`0`
`length`		以 UTF16 字符表示的边界框长度。训练仅考虑此区域的数据。	`500`

后续步骤

可以直接将标记的数据导入到项目中。有关详细信息，请参阅导入项目。
请参阅操作说明文章，了解有关如何标记数据的详细信息。完成数据标记后，可以训练模型。

对话语言理解接受的数据格式

导入项目文件格式

语句文件格式

后续步骤

其他资源