대화 언어 이해에서 허용되는 데이터 서식
데이터를 대화 언어 이해에 업로드하는 경우 특정 형식을 따라야 합니다. 이 문서를 사용하여 허용되는 데이터 형식에 대해 자세히 알아보세요.
프로젝트 파일 형식 가져오기
대화 언어 이해로 프로젝트를 가져오는 경우 업로드되는 파일은 다음 형식이어야 합니다.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
키 | 자리 표시자 | 값 | 예제 |
---|---|---|---|
{API-VERSION} |
호출하는 API의 버전입니다. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
의도가 의도 없음으로 예측되는 임계값 점수입니다. 값은 0 에서 1 사이입니다. |
0.7 |
projectName |
{PROJECT-NAME} |
프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다. | EmailApp |
multilingual |
true |
데이터 세트의 여러 언어로 발화를 사용할 수 있는 부울 값입니다. 모델이 배포되면 해당 모델을 지원되는 모든 언어로 쿼리할 수 있습니다(반드시 학습 문서에 포함되지는 않음). 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. | true |
sublists |
[] |
하위 목록을 포함하는 배열입니다. 각 하위 목록은 키 및 관련 값입니다. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
엔터티에서 여러 구성 요소를 관리하는 방법을 정의하는 규칙입니다. 옵션은 combineComponents 또는 separateComponents 입니다. |
combineComponents |
synonyms |
[] |
모든 동의어를 포함하는 배열입니다. | 동의어 |
language |
{LANGUAGE-CODE} |
프로젝트에 사용된 발화, 동의어 및 정규식의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. | en-us |
intents |
[] |
프로젝트에 있는 모든 의도를 포함하는 배열입니다. 이러한 의도는 발화에서 분류됩니다. | [] |
entities |
[] |
프로젝트의 모든 엔터티를 포함하는 배열입니다. 이러한 엔터티는 발화에서 추출됩니다. 모든 엔터티에는 목록, 미리 빌드된 구성 요소 또는 정규식과 같은 다른 선택적 구성 요소가 정의되어 있을 수 있습니다. | [] |
dataset |
{DATASET} |
학습 전에 분할할 때 이 발화가 적용되는 테스트 집합입니다. 데이터 분할에 대한 자세한 내용은 대화형 언어 이해 모델 학습을 참조하세요. 이 필드에 사용할 수 있는 값은 Train 및 Test 입니다. |
Train |
category |
|
지정된 텍스트 범위와 연결된 엔터티 형식입니다. | Entity1 |
offset |
|
엔터티 시작의 포함 문자 위치입니다. | 5 |
length |
|
엔터티의 문자 길이입니다. | 5 |
listKey |
|
예측에서 다시 매핑할 동의어 목록에 대한 정규화된 값입니다. | Microsoft |
values |
{VALUES-FOR-LIST} |
추출을 위해 정확히 일치되고 목록 키에 매핑되는 쉼표로 구분된 문자열 목록입니다. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
예측에서 다시 매핑할 정규화된 정규식 값입니다. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
정규식입니다. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
공통 형식을 추출할 수 있는 미리 빌드된 구성 요소입니다. 추가할 수 있는 미리 빌드된 목록의 경우 지원되는 미리 빌드된 엔터티 구성 요소를 참조하세요. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
엔터티를 반환하기 위해 특정 구성 요소가 있어야 하는 요구 사항을 지정하는 설정입니다. 자세한 내용은 엔터티 구성 요소를 참조하세요. 가능한 값은 learned , regex , list 또는 prebuilts 입니다. |
"learned", "prebuilt" |
발화 파일 형식
대화 언어 이해는 발화를 하나씩 입력하는 대신 프로젝트에 직접 업로드하는 옵션을 제공합니다. 프로젝트의 데이터 레이블 지정 페이지에서 이 옵션을 찾을 수 있습니다.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
키 | 자리 표시자 | 값 | 예시 |
---|---|---|---|
text |
{Utterance-Text} |
당신의 발화 텍스트. | 테스팅 |
language |
{LANGUAGE-CODE} |
프로젝트에 사용된 발화의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. | en-us |
dataset |
{DATASET} |
학습 전에 분할할 때 이 발화가 적용되는 테스트 집합입니다. 데이터 분할에 대한 자세한 내용은 대화형 언어 이해 모델 학습을 참조하세요. 이 필드에 사용할 수 있는 값은 Train 및 Test 입니다. |
Train |
intent |
{intent} |
할당된 의도. | intent1 |
entity |
{entity} |
추출할 엔터티입니다. | entity1 |
category |
|
지정된 텍스트 범위와 연결된 엔터티 형식입니다. | Entity1 |
offset |
|
텍스트 시작의 포함 문자 위치입니다. | 0 |
length |
|
UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. | 500 |
관련 콘텐츠
- 레이블이 지정된 데이터를 프로젝트로 직접 가져오는 방법에 대한 자세한 내용은 프로젝트 가져오기를 참조하세요.
- 데이터 레이블 지정에 대한 자세한 내용은 Language Studio에서 발화 레이블 지정을 참조하세요. 데이터에 레이블을 지정한 후 모델을 학습시킬 수 있습니다.