대화 언어 이해에서 허용되는 데이터 서식

데이터를 CLU에 업로드하는 경우 특정 형식을 따라야 합니다. 이 문서를 사용하여 허용되는 데이터 서식에 대해 자세히 알아봅니다.

프로젝트 파일 형식 가져오기

CLU로 프로젝트를 가져오는 경우 업로드된 파일은 다음 형식이어야 합니다.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

자리 표시자 예제
{API-VERSION} 호출하는 API의 버전입니다. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} 의도가 의도 없음으로 예측되는 임계값 점수입니다. 값은 0에서 1 사이입니다. 0.7
projectName {PROJECT-NAME} 프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다. EmailApp
multilingual true 데이터 세트에 여러 언어로 된 발화를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. true
sublists [] 하위 목록을 포함하는 배열입니다. 각 하위 목록은 키 및 관련 값입니다. []
compositionSetting {COMPOSITION-SETTING} 엔터티에서 여러 구성 요소를 관리하는 방법을 정의하는 규칙입니다. 옵션은 combineComponents 또는 separateComponents입니다. combineComponents
synonyms [] 모든 동의어를 포함하는 배열 동의어
language {LANGUAGE-CODE} 프로젝트에 사용된 발화, 동의어 및 정규식의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. en-us
intents [] 프로젝트에 있는 모든 의도를 포함하는 배열입니다. 이러한 의도는 발화에서 분류됩니다. []
entities [] 프로젝트의 모든 엔터티를 포함하는 배열입니다. 이들은 사용자의 발화에서 추출될 엔티티입니다. 모든 엔터티에는 목록, 미리 빌드된 구성 요소 또는 정규식과 같은 추가 선택적 구성 요소가 정의되어 있을 수 있습니다. []
dataset {DATASET} 학습 전에 분할될 때 이 발화가 갈 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train
category 지정된 텍스트 범위와 연결된 엔터티 형식입니다. Entity1
offset 엔터티 시작의 포함 문자 위치입니다. 5
length 엔터티의 문자 길이입니다. 5
listKey 예측에서 다시 매핑할 동의어 목록에 대한 정규화된 값입니다. Microsoft
values {VALUES-FOR-LIST} 추출을 위해 정확히 일치되고 목록 키에 매핑되는 쉼표로 구분된 문자열 목록입니다. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} 예측에서 다시 매핑할 정규화된 정규식 값입니다. ProductPattern1
regexPattern {REGEX-PATTERN} 정규식입니다. ^pre
prebuilts {PREBUILT-COMPONENTS} 공통 형식을 추출할 수 있는 미리 빌드된 구성 요소입니다. 여기에서 추가할 수 있는 미리 빌드된 목록의 목록을 찾을 수 있습니다. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} 엔터티를 반환하기 위해 특정 구성 요소가 있어야 하는 요구 사항을 지정하는 설정입니다. 여기에서 자세히 알아볼 수 있습니다. 가능한 값은 learned, regex, list 또는 prebuilts입니다. "learned", "prebuilt"

발화 파일 형식

CLU는 발화를 하나씩 입력하는 대신 프로젝트에 직접 업로드하는 옵션을 제공합니다. 프로젝트의 데이터 레이블 지정 페이지에서 이 옵션을 찾을 수 있습니다.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

자리 표시자 예제
text {Utterance-Text} 당신의 발화 텍스트 테스팅
language {LANGUAGE-CODE} 프로젝트에 사용된 발화의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요. en-us
dataset {DATASET} 학습 전에 분할될 때 이 발화가 갈 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 TrainTest입니다. Train
intent {intent} 할당된 의도 intent1
entity {entity} 추출할 엔터티 entity1
category 지정된 텍스트 범위와 연결된 엔터티 형식입니다. Entity1
offset 텍스트 시작의 포함 문자 위치입니다. 0
length UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다. 500

다음 단계

  • 레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 자세한 내용은 프로젝트 가져오기를 참조하세요.
  • 데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.