A beszélgetési nyelvfelismerés által elfogadott adatformátumok
Ha az adatokat a CLU-ba tölti fel, annak egy adott formátumot kell követnie, ebből a cikkből többet is megtudhat az elfogadott adatformátumokról.
Projektfájlformátum importálása
Ha projektet importál a CLU-ba, a feltöltött fájlnak a következő formátumban kell lennie.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Kulcs | Helyőrző | Érték | Példa |
---|---|---|---|
{API-VERSION} |
A hívott API verziója . | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Ez az a küszöbérték, amely alatt a szándék nincs szándékként lesz előre jelezve. Az értékek a következők:0 1 |
0.7 |
projectName |
{PROJECT-NAME} |
A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét. | EmailApp |
multilingual |
true |
Logikai érték, amely lehetővé teszi, hogy több nyelven is kimondott szövegeket használjon az adathalmazban, és a modell üzembe helyezésekor a modellt bármilyen támogatott nyelven lekérdezheti (ez nem feltétlenül szerepel a betanítási dokumentumokban). A támogatott nyelvkódokkal kapcsolatos további információkért lásd: Nyelvi támogatás . | true |
sublists |
[] |
Az allistákat tartalmazó tömb. Minden allista egy kulcs és a hozzá tartozó értékek. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Az entitás több összetevőjének kezelését meghatározó szabály. A beállítások a vagy separateComponents a combineComponents . |
combineComponents |
synonyms |
[] |
Az összes szinonimát tartalmazó tömb | Szinonimája |
language |
{LANGUAGE-CODE} |
A projektben használt kimondott szövegek, szinonimák és reguláris kifejezések nyelvkódját megadva. Ha a projekt többnyelvű projekt, válassza ki a kimondott szövegek többségének nyelvi kódját . | en-us |
intents |
[] |
A projektben szereplő összes szándékot tartalmazó tömb. Ezek azok a szándékok, amelyek a kimondott szövegekből lesznek besorolva. | [] |
entities |
[] |
A projekt összes entitását tartalmazó tömb. Ezek az entitások lesznek kinyerve a kimondott szövegekből. Minden entitáshoz további választható összetevők is definiálhatók: lista, előre összeállított vagy regex. | [] |
dataset |
{DATASET} |
Az a tesztkészlet, amelyre ez a kimondott szöveg a betanítás előtt felosztáskor kerül. Az adatok felosztásáról itt talál további információt. A mező lehetséges értékei a következők: Train és Test . |
Train |
category |
|
A megadott szövegtartományhoz társított entitás típusa. | Entity1 |
offset |
|
Az entitás kezdetének befogadó karakterpozíciója. | 5 |
length |
|
Az entitás karakterhossza. | 5 |
listKey |
|
A szinonimák listájának normalizált értéke, amely vissza lesz képezve az előrejelzésben. | Microsoft |
values |
{VALUES-FOR-LIST} |
Vesszővel tagolt sztringek listája, amelyek pontosan a kinyeréshez és a listakulcshoz való leképezéshez lesznek megfeleltetve. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
A reguláris kifejezés normalizált értéke, amely vissza lesz képezve az előrejelzésben. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Egy reguláris kifejezés. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Az előre összeállított összetevők, amelyek képesek kinyerni a gyakori típusokat. Az előre összeállított objektumok listáját itt találja. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Egy beállítás, amely azt a követelményt határozza meg, hogy egy adott összetevő jelen legyen az entitás visszaadásához. További információt itt talál. A lehetséges értékek a következők: learned , regex , list , vagy prebuilts |
"learned", "prebuilt" |
Kimondott szöveg fájlformátuma
A CLU lehetőséget kínál arra, hogy közvetlenül a projektbe töltse fel a kimondott szöveget, és ne egyenként írja be őket. Ezt a lehetőséget a projekt adatcímkézési oldalán találja.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Kulcs | Helyőrző | Érték | Példa |
---|---|---|---|
text |
{Utterance-Text} |
A kimondott szöveg | Tesztelés |
language |
{LANGUAGE-CODE} |
A projektben használt kimondott szövegek nyelvi kódját meghatározó sztring. Ha a projekt többnyelvű projekt, válassza ki a kimondott szövegek többségének nyelvi kódját. A támogatott nyelvkódokkal kapcsolatos további információkért lásd: Nyelvi támogatás . | en-us |
dataset |
{DATASET} |
Az a tesztkészlet, amelyre ez a kimondott szöveg a betanítás előtt felosztáskor kerül. Az adatok felosztásáról itt talál további információt. A mező lehetséges értékei a következők: Train és Test . |
Train |
intent |
{intent} |
A hozzárendelt szándék | intent1 |
entity |
{entity} |
Kinyerendő entitás | entity1 |
category |
|
A megadott szövegtartományhoz társított entitás típusa. | Entity1 |
offset |
|
A szöveg elejének befogadó karakterpozíciója. | 0 |
length |
|
A határolókeret hossza UTF16 karakterben. A betanítás csak az ebben a régióban lévő adatokat veszi figyelembe. | 500 |
Következő lépések
- A címkézett adatokat közvetlenül importálhatja a projektbe. További információ: Projekt importálása .
- Az adatok címkézéséről további információt az útmutatóban talál. Ha végzett az adatok címkézésével, betanítheti a modellt.