A beszélgetési nyelvfelismerés által elfogadott adatformátumok

Cikk
12/19/2023

Ha az adatokat a CLU-ba tölti fel, annak egy adott formátumot kell követnie, ebből a cikkből többet is megtudhat az elfogadott adatformátumokról.

Projektfájlformátum importálása

Ha projektet importál a CLU-ba, a feltöltött fájlnak a következő formátumban kell lennie.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Kulcs	Helyőrző	Érték	Példa
`{API-VERSION}`	A hívott API verziója .	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Ez az a küszöbérték, amely alatt a szándék nincs szándékként lesz előre jelezve. Az értékek a következők:`01`	`0.7`
`projectName`	`{PROJECT-NAME}`	A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.	`EmailApp`
`multilingual`	`true`	Logikai érték, amely lehetővé teszi, hogy több nyelven is kimondott szövegeket használjon az adathalmazban, és a modell üzembe helyezésekor a modellt bármilyen támogatott nyelven lekérdezheti (ez nem feltétlenül szerepel a betanítási dokumentumokban). A támogatott nyelvkódokkal kapcsolatos további információkért lásd: Nyelvi támogatás .	`true`
`sublists`	`[]`	Az allistákat tartalmazó tömb. Minden allista egy kulcs és a hozzá tartozó értékek.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Az entitás több összetevőjének kezelését meghatározó szabály. A beállítások a vagy `separateComponents`a `combineComponents` .	`combineComponents`
`synonyms`	`[]`	Az összes szinonimát tartalmazó tömb	Szinonimája
`language`	`{LANGUAGE-CODE}`	A projektben használt kimondott szövegek, szinonimák és reguláris kifejezések nyelvkódját megadva. Ha a projekt többnyelvű projekt, válassza ki a kimondott szövegek többségének nyelvi kódját .	`en-us`
`intents`	`[]`	A projektben szereplő összes szándékot tartalmazó tömb. Ezek azok a szándékok, amelyek a kimondott szövegekből lesznek besorolva.	`[]`
`entities`	`[]`	A projekt összes entitását tartalmazó tömb. Ezek az entitások lesznek kinyerve a kimondott szövegekből. Minden entitáshoz további választható összetevők is definiálhatók: lista, előre összeállított vagy regex.	`[]`
`dataset`	`{DATASET}`	Az a tesztkészlet, amelyre ez a kimondott szöveg a betanítás előtt felosztáskor kerül. Az adatok felosztásáról itt talál további információt. A mező lehetséges értékei a következők: `Train` és `Test`.	`Train`
`category`		A megadott szövegtartományhoz társított entitás típusa.	`Entity1`
`offset`		Az entitás kezdetének befogadó karakterpozíciója.	`5`
`length`		Az entitás karakterhossza.	`5`
`listKey`		A szinonimák listájának normalizált értéke, amely vissza lesz képezve az előrejelzésben.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Vesszővel tagolt sztringek listája, amelyek pontosan a kinyeréshez és a listakulcshoz való leképezéshez lesznek megfeleltetve.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	A reguláris kifejezés normalizált értéke, amely vissza lesz képezve az előrejelzésben.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Egy reguláris kifejezés.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Az előre összeállított összetevők, amelyek képesek kinyerni a gyakori típusokat. Az előre összeállított objektumok listáját itt találja.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Egy beállítás, amely azt a követelményt határozza meg, hogy egy adott összetevő jelen legyen az entitás visszaadásához. További információt itt talál. A lehetséges értékek a következők: `learned`, `regex`, `list`, vagy `prebuilts`	`"learned", "prebuilt"`

Kimondott szöveg fájlformátuma

A CLU lehetőséget kínál arra, hogy közvetlenül a projektbe töltse fel a kimondott szöveget, és ne egyenként írja be őket. Ezt a lehetőséget a projekt adatcímkézési oldalán találja.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Kulcs	Helyőrző	Érték	Példa
`text`	`{Utterance-Text}`	A kimondott szöveg	Tesztelés
`language`	`{LANGUAGE-CODE}`	A projektben használt kimondott szövegek nyelvi kódját meghatározó sztring. Ha a projekt többnyelvű projekt, válassza ki a kimondott szövegek többségének nyelvi kódját. A támogatott nyelvkódokkal kapcsolatos további információkért lásd: Nyelvi támogatás .	`en-us`
`dataset`	`{DATASET}`	Az a tesztkészlet, amelyre ez a kimondott szöveg a betanítás előtt felosztáskor kerül. Az adatok felosztásáról itt talál további információt. A mező lehetséges értékei a következők: `Train` és `Test`.	`Train`
`intent`	`{intent}`	A hozzárendelt szándék	intent1
`entity`	`{entity}`	Kinyerendő entitás	entity1
`category`		A megadott szövegtartományhoz társított entitás típusa.	`Entity1`
`offset`		A szöveg elejének befogadó karakterpozíciója.	`0`
`length`		A határolókeret hossza UTF16 karakterben. A betanítás csak az ebben a régióban lévő adatokat veszi figyelembe.	`500`

Következő lépések

A címkézett adatokat közvetlenül importálhatja a projektbe. További információ: Projekt importálása .
Az adatok címkézéséről további információt az útmutatóban talál. Ha végzett az adatok címkézésével, betanítheti a modellt.

Share via

A beszélgetési nyelvfelismerés által elfogadott adatformátumok

Projektfájlformátum importálása

Kimondott szöveg fájlformátuma

Következő lépések

További források