Share via


A beszélgetési nyelvfelismerés által elfogadott adatformátumok

Ha az adatokat a CLU-ba tölti fel, annak egy adott formátumot kell követnie, ebből a cikkből többet is megtudhat az elfogadott adatformátumokról.

Projektfájlformátum importálása

Ha projektet importál a CLU-ba, a feltöltött fájlnak a következő formátumban kell lennie.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Kulcs Helyőrző Érték Példa
{API-VERSION} A hívott API verziója . 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Ez az a küszöbérték, amely alatt a szándék nincs szándékként lesz előre jelezve. Az értékek a következők:01 0.7
projectName {PROJECT-NAME} A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét. EmailApp
multilingual true Logikai érték, amely lehetővé teszi, hogy több nyelven is kimondott szövegeket használjon az adathalmazban, és a modell üzembe helyezésekor a modellt bármilyen támogatott nyelven lekérdezheti (ez nem feltétlenül szerepel a betanítási dokumentumokban). A támogatott nyelvkódokkal kapcsolatos további információkért lásd: Nyelvi támogatás . true
sublists [] Az allistákat tartalmazó tömb. Minden allista egy kulcs és a hozzá tartozó értékek. []
compositionSetting {COMPOSITION-SETTING} Az entitás több összetevőjének kezelését meghatározó szabály. A beállítások a vagy separateComponentsa combineComponents . combineComponents
synonyms [] Az összes szinonimát tartalmazó tömb Szinonimája
language {LANGUAGE-CODE} A projektben használt kimondott szövegek, szinonimák és reguláris kifejezések nyelvkódját megadva. Ha a projekt többnyelvű projekt, válassza ki a kimondott szövegek többségének nyelvi kódját . en-us
intents [] A projektben szereplő összes szándékot tartalmazó tömb. Ezek azok a szándékok, amelyek a kimondott szövegekből lesznek besorolva. []
entities [] A projekt összes entitását tartalmazó tömb. Ezek az entitások lesznek kinyerve a kimondott szövegekből. Minden entitáshoz további választható összetevők is definiálhatók: lista, előre összeállított vagy regex. []
dataset {DATASET} Az a tesztkészlet, amelyre ez a kimondott szöveg a betanítás előtt felosztáskor kerül. Az adatok felosztásáról itt talál további információt. A mező lehetséges értékei a következők: Train és Test. Train
category A megadott szövegtartományhoz társított entitás típusa. Entity1
offset Az entitás kezdetének befogadó karakterpozíciója. 5
length Az entitás karakterhossza. 5
listKey A szinonimák listájának normalizált értéke, amely vissza lesz képezve az előrejelzésben. Microsoft
values {VALUES-FOR-LIST} Vesszővel tagolt sztringek listája, amelyek pontosan a kinyeréshez és a listakulcshoz való leképezéshez lesznek megfeleltetve. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} A reguláris kifejezés normalizált értéke, amely vissza lesz képezve az előrejelzésben. ProductPattern1
regexPattern {REGEX-PATTERN} Egy reguláris kifejezés. ^pre
prebuilts {PREBUILT-COMPONENTS} Az előre összeállított összetevők, amelyek képesek kinyerni a gyakori típusokat. Az előre összeállított objektumok listáját itt találja. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Egy beállítás, amely azt a követelményt határozza meg, hogy egy adott összetevő jelen legyen az entitás visszaadásához. További információt itt talál. A lehetséges értékek a következők: learned, regex, list, vagy prebuilts "learned", "prebuilt"

Kimondott szöveg fájlformátuma

A CLU lehetőséget kínál arra, hogy közvetlenül a projektbe töltse fel a kimondott szöveget, és ne egyenként írja be őket. Ezt a lehetőséget a projekt adatcímkézési oldalán találja.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Kulcs Helyőrző Érték Példa
text {Utterance-Text} A kimondott szöveg Tesztelés
language {LANGUAGE-CODE} A projektben használt kimondott szövegek nyelvi kódját meghatározó sztring. Ha a projekt többnyelvű projekt, válassza ki a kimondott szövegek többségének nyelvi kódját. A támogatott nyelvkódokkal kapcsolatos további információkért lásd: Nyelvi támogatás . en-us
dataset {DATASET} Az a tesztkészlet, amelyre ez a kimondott szöveg a betanítás előtt felosztáskor kerül. Az adatok felosztásáról itt talál további információt. A mező lehetséges értékei a következők: Train és Test. Train
intent {intent} A hozzárendelt szándék intent1
entity {entity} Kinyerendő entitás entity1
category A megadott szövegtartományhoz társított entitás típusa. Entity1
offset A szöveg elejének befogadó karakterpozíciója. 0
length A határolókeret hossza UTF16 karakterben. A betanítás csak az ebben a régióban lévő adatokat veszi figyelembe. 500

Következő lépések