你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

对话语言理解接受的数据格式

如果要将数据上传到 CLU,数据必须遵循特定格式,请通过本文详细了解接受的数据格式。

导入项目文件格式

如果要将项目导入 CLU,则上传的文件必须采用以下格式。

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

密钥 占位符 示例
{API-VERSION} 要调用的 API 的版本 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} 这是一个阈值分数,低于此分数的意向将被预测为无意向。 值的范围是 01 0.7
projectName {PROJECT-NAME} 项目名称。 此值区分大小写。 EmailApp
multilingual true 一个布尔值,它让你可以在数据集中拥有多种语言的语句,并且在部署模型时可以使用任何支持的语言(不一定包含在训练文档中)查询模型。 有关受支持的语言代码的详细信息,请参阅语言支持 true
sublists [] 包含子列表的数组。 每个子列表都包含一个键及其关联的值。 []
compositionSetting {COMPOSITION-SETTING} 定义如何在实体中管理多个组件的规则。 选项是 combineComponentsseparateComponents combineComponents
synonyms [] 包含所有同义词的数组 同义词 (synonym)
language {LANGUAGE-CODE} 指定项目中所用语句、同义词和正则表达式的语言代码的字符串。 如果项目是多语言项目,请选择大多数语句的语言代码 en-us
intents [] 一个数组,其中包含项目中的所有意向。 这些是将从语句中分类的意向。 []
entities [] 包含项目中所有实体的数组。 这些是将从语句中提取的实体。 每个实体都可以使用它们定义额外的可选组件:list、prebuilt 或 regex。 []
dataset {DATASET} 此语句在训练前拆分时将归类到的测试集。 可在此处了解有关数据拆分的详细信息。 此字段的可能值为 TrainTest Train
category 与指定文本跨度关联的实体类型。 Entity1
offset 实体开头的非独占字符位置。 5
length 实体的字符长度。 5
listKey 在预测中要映射回的同义词列表的规范化值。 Microsoft
values {VALUES-FOR-LIST} 将完全匹配的逗号分隔字符串的列表,用于提取并映射到列表键。 "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} 在预测中正则表达式要映射回的规范化值。 ProductPattern1
regexPattern {REGEX-PATTERN} 一个正则表达式。 ^pre
prebuilts {PREBUILT-COMPONENTS} 可以提取常见类型的预生成组件。 在此处可以找到可添加的预生成列表。 Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} 指定要求存在特定组件以返回实体的设置。 可在此处了解详细信息。 可能的值为 learnedregexlistprebuilts "learned", "prebuilt"

语句文件格式

CLU 提供将语句直接上传到项目的选项,用户不必逐一键入它们。 可以在项目的数据标签页中找到此选项。

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

密钥 占位符 示例
text {Utterance-Text} 你的语句文本 正在测试
language {LANGUAGE-CODE} 指定项目中所用语句的语言代码的字符串。 如果项目是多语言项目,请选择大多数语句的语言代码。 有关受支持的语言代码的详细信息,请参阅语言支持 en-us
dataset {DATASET} 此语句在训练前拆分时将归类到的测试集。 可在此处了解有关数据拆分的详细信息。 此字段的可能值为 TrainTest Train
intent {intent} 分配的意向 intent1
entity {entity} 要提取的实体 entity1
category 与指定文本跨度关联的实体类型。 Entity1
offset 文本开头的非独占字符位置。 0
length 以 UTF16 字符表示的边界框长度。 训练仅考虑此区域的数据。 500

后续步骤

  • 可以直接将标记的数据导入到项目中。 有关详细信息,请参阅导入项目
  • 请参阅操作说明文章,了解有关如何标记数据的详细信息。 完成数据标记后,可以训练模型