Formaty danych akceptowane przez interpretację języka konwersacyjnego
Jeśli przekazujesz dane do funkcji CLU, musi ona mieć określony format, skorzystaj z tego artykułu, aby dowiedzieć się więcej o akceptowanych formatach danych.
Importowanie formatu pliku projektu
Jeśli importujesz projekt do clu, przekazany plik musi mieć następujący format.
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Klucz | Symbol zastępczy | Wartość | Przykład |
---|---|---|---|
{API-VERSION} |
Wersja wywoływanego interfejsu API. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Jest to wynik progowy poniżej, który intencja będzie przewidywana jako żadna intencja. Wartości to od 0 do 1 |
0.7 |
projectName |
{PROJECT-NAME} |
Nazwa projektu. W tej wartości jest uwzględniana wielkość liter. | EmailApp |
multilingual |
true |
Wartość logiczna, która umożliwia korzystanie z wypowiedzi w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie uwzględniane w dokumentach szkoleniowych. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka . | true |
sublists |
[] |
Tablica zawierająca podlisty. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to combineComponents lub separateComponents . |
combineComponents |
synonyms |
[] |
Tablica zawierająca wszystkie synonimy | Synonim |
language |
{LANGUAGE-CODE} |
Ciąg określający kod języka wypowiedzi, synonimów i wyrażeń regularnych używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. | en-us |
intents |
[] |
Tablica zawierająca wszystkie intencje, które znajdują się w projekcie. Są to intencje, które będą klasyfikowane z wypowiedzi. | [] |
entities |
[] |
Tablica zawierająca wszystkie jednostki w projekcie. Są to jednostki, które zostaną wyodrębnione z wypowiedzi. Każda jednostka może mieć zdefiniowane dodatkowe składniki opcjonalne: listę, wstępnie utworzone lub wyrażeń regularnych. | [] |
dataset |
{DATASET} |
Zestaw testowy, do którego ta wypowiedź zostanie podzielona przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test . |
Train |
category |
|
Typ jednostki skojarzonej z określonym zakresem tekstu. | Entity1 |
offset |
|
Pozycja znaku inkluzywnego początku jednostki. | 5 |
length |
|
Długość znaku jednostki. | 5 |
listKey |
|
Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu. | Microsoft |
values |
{VALUES-FOR-LIST} |
Lista ciągów rozdzielonych przecinkami, które będą dokładnie dopasowane do wyodrębniania i mapowania na klucz listy. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Znormalizowana wartość wyrażenia regularnego do mapowania z powrotem na wartość w przewidywaniu. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Wyrażenie regularne. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Wstępnie utworzone składniki, które mogą wyodrębniać typowe typy. Listę wstępnie utworzonych elementów można dodać tutaj. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Ustawienie określające wymaganie, aby określony składnik był obecny w celu zwrócenia jednostki. Więcej informacji można znaleźć tutaj. Możliwe wartości to learned , regex , list lub prebuilts |
"learned", "prebuilt" |
Format pliku wypowiedzi
Funkcja CLU oferuje opcję przekazania wypowiedzi bezpośrednio do projektu, a nie wpisywania ich w jednym po drugim. Tę opcję można znaleźć na stronie etykietowania danych dla projektu.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Klucz | Symbol zastępczy | Wartość | Przykład |
---|---|---|---|
text |
{Utterance-Text} |
Tekst wypowiedzi | Testowanie |
language |
{LANGUAGE-CODE} |
Ciąg określający kod języka wypowiedzi używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka . | en-us |
dataset |
{DATASET} |
Zestaw testowy, do którego ta wypowiedź zostanie podzielona przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test . |
Train |
intent |
{intent} |
Przypisana intencja | intent1 |
entity |
{entity} |
Jednostka do wyodrębnienia | jednostka1 |
category |
|
Typ jednostki skojarzonej z określonym zakresem tekstu. | Entity1 |
offset |
|
Położenie znaku inkluzywnego początku tekstu. | 0 |
length |
|
Długość pola ograniczenia pod względem znaków UTF16. Trenowanie uwzględnia tylko dane w tym regionie. | 500 |
Następne kroki
- Dane z etykietami można zaimportować bezpośrednio do projektu. Aby uzyskać więcej informacji, zobacz importowanie projektu .
- Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.