你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
对话语言理解接受的数据格式
如果要将数据上传到 CLU,数据必须遵循特定格式,请通过本文详细了解接受的数据格式。
导入项目文件格式
如果要将项目导入 CLU,则上传的文件必须采用以下格式。
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
密钥 | 占位符 | 值 | 示例 |
---|---|---|---|
{API-VERSION} |
要调用的 API 的版本。 | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
这是一个阈值分数,低于此分数的意向将被预测为无意向。 值的范围是 0 到 1 |
0.7 |
projectName |
{PROJECT-NAME} |
项目名称。 此值区分大小写。 | EmailApp |
multilingual |
true |
一个布尔值,它让你可以在数据集中拥有多种语言的语句,并且在部署模型时可以使用任何支持的语言(不一定包含在训练文档中)查询模型。 有关受支持的语言代码的详细信息,请参阅语言支持。 | true |
sublists |
[] |
包含子列表的数组。 每个子列表都包含一个键及其关联的值。 | [] |
compositionSetting |
{COMPOSITION-SETTING} |
定义如何在实体中管理多个组件的规则。 选项是 combineComponents 或 separateComponents 。 |
combineComponents |
synonyms |
[] |
包含所有同义词的数组 | 同义词 (synonym) |
language |
{LANGUAGE-CODE} |
指定项目中所用语句、同义词和正则表达式的语言代码的字符串。 如果项目是多语言项目,请选择大多数语句的语言代码。 | en-us |
intents |
[] |
一个数组,其中包含项目中的所有意向。 这些是将从语句中分类的意向。 | [] |
entities |
[] |
包含项目中所有实体的数组。 这些是将从语句中提取的实体。 每个实体都可以使用它们定义额外的可选组件:list、prebuilt 或 regex。 | [] |
dataset |
{DATASET} |
此语句在训练前拆分时将归类到的测试集。 可在此处了解有关数据拆分的详细信息。 此字段的可能值为 Train 和 Test 。 |
Train |
category |
|
与指定文本跨度关联的实体类型。 | Entity1 |
offset |
|
实体开头的非独占字符位置。 | 5 |
length |
|
实体的字符长度。 | 5 |
listKey |
|
在预测中要映射回的同义词列表的规范化值。 | Microsoft |
values |
{VALUES-FOR-LIST} |
将完全匹配的逗号分隔字符串的列表,用于提取并映射到列表键。 | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
在预测中正则表达式要映射回的规范化值。 | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
一个正则表达式。 | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
可以提取常见类型的预生成组件。 在此处可以找到可添加的预生成列表。 | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
指定要求存在特定组件以返回实体的设置。 可在此处了解详细信息。 可能的值为 learned 、regex 、list 或 prebuilts |
"learned", "prebuilt" |
语句文件格式
CLU 提供将语句直接上传到项目的选项,用户不必逐一键入它们。 可以在项目的数据标签页中找到此选项。
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
密钥 | 占位符 | 值 | 示例 |
---|---|---|---|
text |
{Utterance-Text} |
你的语句文本 | 正在测试 |
language |
{LANGUAGE-CODE} |
指定项目中所用语句的语言代码的字符串。 如果项目是多语言项目,请选择大多数语句的语言代码。 有关受支持的语言代码的详细信息,请参阅语言支持。 | en-us |
dataset |
{DATASET} |
此语句在训练前拆分时将归类到的测试集。 可在此处了解有关数据拆分的详细信息。 此字段的可能值为 Train 和 Test 。 |
Train |
intent |
{intent} |
分配的意向 | intent1 |
entity |
{entity} |
要提取的实体 | entity1 |
category |
|
与指定文本跨度关联的实体类型。 | Entity1 |
offset |
|
文本开头的非独占字符位置。 | 0 |
length |
|
以 UTF16 字符表示的边界框长度。 训练仅考虑此区域的数据。 | 500 |