Formáty dat přijímané konverzačním jazykem
Pokud nahráváte data do CLU, musí být v určitém formátu, přečtěte si v tomto článku další informace o přijímaných formátech dat.
Import formátu souboru projektu
Pokud importujete projekt do CLU, musí být nahraný soubor v následujícím formátu.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Klíč | Zástupný symbol | Hodnota | Příklad |
---|---|---|---|
{API-VERSION} |
Verze rozhraní API, které voláte. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Toto je skóre prahové hodnoty, pod kterým bude záměr predikován jako žádný záměr. Hodnoty jsou od 0 do 1 |
0.7 |
projectName |
{PROJECT-NAME} |
Název projektu. V této hodnotě se rozlišují velká a malá písmena. | EmailApp |
multilingual |
true |
Logická hodnota, která umožňuje mít v datové sadě promluvy v několika jazycích, a když je model nasazený, můžete se na model dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. | true |
sublists |
[] |
Pole obsahující dílčí seznamy. Každý podseznam je klíč a jeho přidružené hodnoty. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Pravidlo, které definuje, jak spravovat více komponent v entitě. Možnosti jsou combineComponents nebo separateComponents . |
combineComponents |
synonyms |
[] |
Pole obsahující všechna synonyma | Synonymum |
language |
{LANGUAGE-CODE} |
Řetězec určující kód jazyka pro promluvy, synonyma a regulární výrazy použité v projektu. Pokud se jedná o vícejazyčný projekt, zvolte kód jazyka většiny promluv. | en-us |
intents |
[] |
Pole obsahující všechny záměry, které máte v projektu. Toto jsou záměry, které budou klasifikovány z vašich promluv. | [] |
entities |
[] |
Pole obsahující všechny entity v projektu. Toto jsou entity, které budou extrahovány z vašich promluv. Každá entita může mít definované další volitelné komponenty: seznam, předem připravený nebo regex. | [] |
dataset |
{DATASET} |
Testovací sada, do které bude tato promluva chodit při rozdělení před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou Train a Test . |
Train |
category |
|
Typ entity přidružené k zadanému rozsahu textu. | Entity1 |
offset |
|
Pozice inkluzivního znaku začátku entity. | 5 |
length |
|
Délka znaku entity. | 5 |
listKey |
|
Normalizovaná hodnota seznamu synonym, na která se má mapovat zpět v predikci. | Microsoft |
values |
{VALUES-FOR-LIST} |
Seznam řetězců oddělených čárkami, které budou přesně spárovány pro extrakci a mapování na klíč seznamu. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Normalizovaná hodnota regulárního výrazu, na který se má mapovat zpět v predikci. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Regulární výraz. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Předem připravené komponenty, které můžou extrahovat běžné typy. Seznam předem připravených položek, které můžete přidat, najdete tady. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Nastavení, které určuje požadavek, aby byla k dispozici konkrétní komponenta pro vrácení entity. Další informace najdete tady. Možné hodnoty jsou learned , regex , list nebo prebuilts |
"learned", "prebuilt" |
Formát souboru promluv
CLU nabízí možnost nahrát promluvu přímo do projektu, místo toho, abyste je zapisovali jeden po druhém. Tuto možnost najdete na stránce popisků dat pro váš projekt.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Klíč | Zástupný symbol | Hodnota | Příklad |
---|---|---|---|
text |
{Utterance-Text} |
Text promluvy | Testování |
language |
{LANGUAGE-CODE} |
Řetězec určující kód jazyka pro promluvy použité v projektu. Pokud se jedná o vícejazyčný projekt, zvolte kód jazyka většiny promluv. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. | en-us |
dataset |
{DATASET} |
Testovací sada, do které bude tato promluva chodit při rozdělení před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou Train a Test . |
Train |
intent |
{intent} |
Přiřazený záměr | záměr1 |
entity |
{entity} |
Entita, která se má extrahovat | entita1 |
category |
|
Typ entity přidružené k zadanému rozsahu textu. | Entity1 |
offset |
|
Pozice inkluzivního znaku začátku textu. | 0 |
length |
|
Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. | 500 |
Další kroky
- Data s popiskem můžete importovat přímo do projektu. Další informace najdete v tématu import projektu .
- Další informace o označování dat najdete v článku s postupy . Po dokončení označování dat můžete model vytrénovat.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro