대화 언어 이해에서 허용되는 데이터 서식

아티클
12/19/2023

데이터를 CLU에 업로드하는 경우 특정 형식을 따라야 합니다. 이 문서를 사용하여 허용되는 데이터 서식에 대해 자세히 알아봅니다.

프로젝트 파일 형식 가져오기

CLU로 프로젝트를 가져오는 경우 업로드된 파일은 다음 형식이어야 합니다.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

키	자리 표시자	값	예제
`{API-VERSION}`	호출하는 API의 버전입니다.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	의도가 의도 없음으로 예측되는 임계값 점수입니다. 값은 `0`에서 `1` 사이입니다.	`0.7`
`projectName`	`{PROJECT-NAME}`	프로젝트의 이름입니다. 이 값은 대/소문자를 구분합니다.	`EmailApp`
`multilingual`	`true`	데이터 세트에 여러 언어로 된 발화를 포함할 수 있고 모델을 배포할 때 지원되는 모든 언어로 모델을 쿼리할 수 있는 부울 값입니다(반드시 학습 문서에 포함되지는 않음). 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요.	`true`
`sublists`	`[]`	하위 목록을 포함하는 배열입니다. 각 하위 목록은 키 및 관련 값입니다.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	엔터티에서 여러 구성 요소를 관리하는 방법을 정의하는 규칙입니다. 옵션은 `combineComponents` 또는 `separateComponents`입니다.	`combineComponents`
`synonyms`	`[]`	모든 동의어를 포함하는 배열	동의어
`language`	`{LANGUAGE-CODE}`	프로젝트에 사용된 발화, 동의어 및 정규식의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다.	`en-us`
`intents`	`[]`	프로젝트에 있는 모든 의도를 포함하는 배열입니다. 이러한 의도는 발화에서 분류됩니다.	`[]`
`entities`	`[]`	프로젝트의 모든 엔터티를 포함하는 배열입니다. 이들은 사용자의 발화에서 추출될 엔티티입니다. 모든 엔터티에는 목록, 미리 빌드된 구성 요소 또는 정규식과 같은 추가 선택적 구성 요소가 정의되어 있을 수 있습니다.	`[]`
`dataset`	`{DATASET}`	학습 전에 분할될 때 이 발화가 갈 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 `Train` 및 `Test`입니다.	`Train`
`category`		지정된 텍스트 범위와 연결된 엔터티 형식입니다.	`Entity1`
`offset`		엔터티 시작의 포함 문자 위치입니다.	`5`
`length`		엔터티의 문자 길이입니다.	`5`
`listKey`		예측에서 다시 매핑할 동의어 목록에 대한 정규화된 값입니다.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	추출을 위해 정확히 일치되고 목록 키에 매핑되는 쉼표로 구분된 문자열 목록입니다.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	예측에서 다시 매핑할 정규화된 정규식 값입니다.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	정규식입니다.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	공통 형식을 추출할 수 있는 미리 빌드된 구성 요소입니다. 여기에서 추가할 수 있는 미리 빌드된 목록의 목록을 찾을 수 있습니다.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	엔터티를 반환하기 위해 특정 구성 요소가 있어야 하는 요구 사항을 지정하는 설정입니다. 여기에서 자세히 알아볼 수 있습니다. 가능한 값은 `learned`, `regex`, `list` 또는 `prebuilts`입니다.	`"learned", "prebuilt"`

발화 파일 형식

CLU는 발화를 하나씩 입력하는 대신 프로젝트에 직접 업로드하는 옵션을 제공합니다. 프로젝트의 데이터 레이블 지정 페이지에서 이 옵션을 찾을 수 있습니다.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

키	자리 표시자	값	예제
`text`	`{Utterance-Text}`	당신의 발화 텍스트	테스팅
`language`	`{LANGUAGE-CODE}`	프로젝트에 사용된 발화의 언어 코드를 지정하는 문자열입니다. 프로젝트가 다국어 프로젝트인 경우 대부분의 발화에 대한 언어 코드를 선택합니다. 지원되는 언어 코드에 대한 자세한 내용은 언어 지원을 참조하세요.	`en-us`
`dataset`	`{DATASET}`	학습 전에 분할될 때 이 발화가 갈 테스트 집합입니다. 여기에서 데이터 분할에 대해 자세히 알아보세요. 이 필드에 사용할 수 있는 값은 `Train` 및 `Test`입니다.	`Train`
`intent`	`{intent}`	할당된 의도	intent1
`entity`	`{entity}`	추출할 엔터티	entity1
`category`		지정된 텍스트 범위와 연결된 엔터티 형식입니다.	`Entity1`
`offset`		텍스트 시작의 포함 문자 위치입니다.	`0`
`length`		UTF16 문자로 나타낸 경계 상자의 길이입니다. 학습은 이 지역의 데이터만 고려합니다.	`500`

다음 단계

레이블이 지정된 데이터를 프로젝트로 직접 가져올 수 있습니다. 자세한 내용은 프로젝트 가져오기를 참조하세요.
데이터 레이블 지정에 관한 자세한 내용은 방법 문서를 참조하세요. 데이터 레이블 지정을 완료하면 모델을 학습시킬 수 있습니다.

대화 언어 이해에서 허용되는 데이터 서식

프로젝트 파일 형식 가져오기

발화 파일 형식

다음 단계

추가 리소스