Sdílet prostřednictvím


Formáty dat přijímané konverzačním jazykem

Pokud nahráváte data do CLU, musí být v určitém formátu, přečtěte si v tomto článku další informace o přijímaných formátech dat.

Import formátu souboru projektu

Pokud importujete projekt do CLU, musí být nahraný soubor v následujícím formátu.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Klíč Zástupný symbol Hodnota Příklad
{API-VERSION} Verze rozhraní API, které voláte. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Toto je skóre prahové hodnoty, pod kterým bude záměr predikován jako žádný záměr. Hodnoty jsou od 0 do 1 0.7
projectName {PROJECT-NAME} Název projektu. V této hodnotě se rozlišují velká a malá písmena. EmailApp
multilingual true Logická hodnota, která umožňuje mít v datové sadě promluvy v několika jazycích, a když je model nasazený, můžete se na model dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. true
sublists [] Pole obsahující dílčí seznamy. Každý podseznam je klíč a jeho přidružené hodnoty. []
compositionSetting {COMPOSITION-SETTING} Pravidlo, které definuje, jak spravovat více komponent v entitě. Možnosti jsou combineComponents nebo separateComponents. combineComponents
synonyms [] Pole obsahující všechna synonyma Synonymum
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro promluvy, synonyma a regulární výrazy použité v projektu. Pokud se jedná o vícejazyčný projekt, zvolte kód jazyka většiny promluv. en-us
intents [] Pole obsahující všechny záměry, které máte v projektu. Toto jsou záměry, které budou klasifikovány z vašich promluv. []
entities [] Pole obsahující všechny entity v projektu. Toto jsou entity, které budou extrahovány z vašich promluv. Každá entita může mít definované další volitelné komponenty: seznam, předem připravený nebo regex. []
dataset {DATASET} Testovací sada, do které bude tato promluva chodit při rozdělení před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou Train a Test. Train
category Typ entity přidružené k zadanému rozsahu textu. Entity1
offset Pozice inkluzivního znaku začátku entity. 5
length Délka znaku entity. 5
listKey Normalizovaná hodnota seznamu synonym, na která se má mapovat zpět v predikci. Microsoft
values {VALUES-FOR-LIST} Seznam řetězců oddělených čárkami, které budou přesně spárovány pro extrakci a mapování na klíč seznamu. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Normalizovaná hodnota regulárního výrazu, na který se má mapovat zpět v predikci. ProductPattern1
regexPattern {REGEX-PATTERN} Regulární výraz. ^pre
prebuilts {PREBUILT-COMPONENTS} Předem připravené komponenty, které můžou extrahovat běžné typy. Seznam předem připravených položek, které můžete přidat, najdete tady. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Nastavení, které určuje požadavek, aby byla k dispozici konkrétní komponenta pro vrácení entity. Další informace najdete tady. Možné hodnoty jsou learned, regex, listnebo prebuilts "learned", "prebuilt"

Formát souboru promluv

CLU nabízí možnost nahrát promluvu přímo do projektu, místo toho, abyste je zapisovali jeden po druhém. Tuto možnost najdete na stránce popisků dat pro váš projekt.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Klíč Zástupný symbol Hodnota Příklad
text {Utterance-Text} Text promluvy Testování
language {LANGUAGE-CODE} Řetězec určující kód jazyka pro promluvy použité v projektu. Pokud se jedná o vícejazyčný projekt, zvolte kód jazyka většiny promluv. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. en-us
dataset {DATASET} Testovací sada, do které bude tato promluva chodit při rozdělení před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou Train a Test. Train
intent {intent} Přiřazený záměr záměr1
entity {entity} Entita, která se má extrahovat entita1
category Typ entity přidružené k zadanému rozsahu textu. Entity1
offset Pozice inkluzivního znaku začátku textu. 0
length Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. 500

Další kroky