Formaty danych akceptowane przez interpretację języka konwersacyjnego

Jeśli przekazujesz dane do funkcji CLU, musi ona mieć określony format, skorzystaj z tego artykułu, aby dowiedzieć się więcej o akceptowanych formatach danych.

Importowanie formatu pliku projektu

Jeśli importujesz projekt do clu, przekazany plik musi mieć następujący format.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Klucz Symbol zastępczy Wartość Przykład
{API-VERSION} Wersja wywoływanego interfejsu API. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Jest to wynik progowy poniżej, który intencja będzie przewidywana jako żadna intencja. Wartości to od 0 do 1 0.7
projectName {PROJECT-NAME} Nazwa projektu. W tej wartości jest uwzględniana wielkość liter. EmailApp
multilingual true Wartość logiczna, która umożliwia korzystanie z wypowiedzi w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie uwzględniane w dokumentach szkoleniowych. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka . true
sublists [] Tablica zawierająca podlisty. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami. []
compositionSetting {COMPOSITION-SETTING} Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to combineComponents lub separateComponents. combineComponents
synonyms [] Tablica zawierająca wszystkie synonimy Synonim
language {LANGUAGE-CODE} Ciąg określający kod języka wypowiedzi, synonimów i wyrażeń regularnych używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. en-us
intents [] Tablica zawierająca wszystkie intencje, które znajdują się w projekcie. Są to intencje, które będą klasyfikowane z wypowiedzi. []
entities [] Tablica zawierająca wszystkie jednostki w projekcie. Są to jednostki, które zostaną wyodrębnione z wypowiedzi. Każda jednostka może mieć zdefiniowane dodatkowe składniki opcjonalne: listę, wstępnie utworzone lub wyrażeń regularnych. []
dataset {DATASET} Zestaw testowy, do którego ta wypowiedź zostanie podzielona przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test. Train
category Typ jednostki skojarzonej z określonym zakresem tekstu. Entity1
offset Pozycja znaku inkluzywnego początku jednostki. 5
length Długość znaku jednostki. 5
listKey Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu. Microsoft
values {VALUES-FOR-LIST} Lista ciągów rozdzielonych przecinkami, które będą dokładnie dopasowane do wyodrębniania i mapowania na klucz listy. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Znormalizowana wartość wyrażenia regularnego do mapowania z powrotem na wartość w przewidywaniu. ProductPattern1
regexPattern {REGEX-PATTERN} Wyrażenie regularne. ^pre
prebuilts {PREBUILT-COMPONENTS} Wstępnie utworzone składniki, które mogą wyodrębniać typowe typy. Listę wstępnie utworzonych elementów można dodać tutaj. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Ustawienie określające wymaganie, aby określony składnik był obecny w celu zwrócenia jednostki. Więcej informacji można znaleźć tutaj. Możliwe wartości to learned, regex, listlub prebuilts "learned", "prebuilt"

Format pliku wypowiedzi

Funkcja CLU oferuje opcję przekazania wypowiedzi bezpośrednio do projektu, a nie wpisywania ich w jednym po drugim. Tę opcję można znaleźć na stronie etykietowania danych dla projektu.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Klucz Symbol zastępczy Wartość Przykład
text {Utterance-Text} Tekst wypowiedzi Testowanie
language {LANGUAGE-CODE} Ciąg określający kod języka wypowiedzi używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka . en-us
dataset {DATASET} Zestaw testowy, do którego ta wypowiedź zostanie podzielona przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to Train i Test. Train
intent {intent} Przypisana intencja intent1
entity {entity} Jednostka do wyodrębnienia jednostka1
category Typ jednostki skojarzonej z określonym zakresem tekstu. Entity1
offset Położenie znaku inkluzywnego początku tekstu. 0
length Długość pola ograniczenia pod względem znaków UTF16. Trenowanie uwzględnia tylko dane w tym regionie. 500

Następne kroki