Formaty danych akceptowane przez interpretację języka konwersacyjnego

Artykuł
12/19/2023

Jeśli przekazujesz dane do funkcji CLU, musi ona mieć określony format, skorzystaj z tego artykułu, aby dowiedzieć się więcej o akceptowanych formatach danych.

Importowanie formatu pliku projektu

Jeśli importujesz projekt do clu, przekazany plik musi mieć następujący format.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Klucz	Symbol zastępczy	Wartość	Przykład
`{API-VERSION}`	Wersja wywoływanego interfejsu API.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Jest to wynik progowy poniżej, który intencja będzie przewidywana jako żadna intencja. Wartości to od `0` do `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	Nazwa projektu. W tej wartości jest uwzględniana wielkość liter.	`EmailApp`
`multilingual`	`true`	Wartość logiczna, która umożliwia korzystanie z wypowiedzi w wielu językach w zestawie danych, a po wdrożeniu modelu można wykonywać zapytania dotyczące modelu w dowolnym obsługiwanym języku (niekoniecznie uwzględniane w dokumentach szkoleniowych. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka .	`true`
`sublists`	`[]`	Tablica zawierająca podlisty. Każda lista podrzędna jest kluczem i skojarzonymi z nimi wartościami.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Reguła definiująca sposób zarządzania wieloma składnikami w jednostce. Opcje to `combineComponents` lub `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Tablica zawierająca wszystkie synonimy	Synonim
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka wypowiedzi, synonimów i wyrażeń regularnych używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi.	`en-us`
`intents`	`[]`	Tablica zawierająca wszystkie intencje, które znajdują się w projekcie. Są to intencje, które będą klasyfikowane z wypowiedzi.	`[]`
`entities`	`[]`	Tablica zawierająca wszystkie jednostki w projekcie. Są to jednostki, które zostaną wyodrębnione z wypowiedzi. Każda jednostka może mieć zdefiniowane dodatkowe składniki opcjonalne: listę, wstępnie utworzone lub wyrażeń regularnych.	`[]`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ta wypowiedź zostanie podzielona przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`category`		Typ jednostki skojarzonej z określonym zakresem tekstu.	`Entity1`
`offset`		Pozycja znaku inkluzywnego początku jednostki.	`5`
`length`		Długość znaku jednostki.	`5`
`listKey`		Znormalizowana wartość listy synonimów, które mają być mapowane z powrotem na w przewidywaniu.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Lista ciągów rozdzielonych przecinkami, które będą dokładnie dopasowane do wyodrębniania i mapowania na klucz listy.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Znormalizowana wartość wyrażenia regularnego do mapowania z powrotem na wartość w przewidywaniu.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Wyrażenie regularne.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Wstępnie utworzone składniki, które mogą wyodrębniać typowe typy. Listę wstępnie utworzonych elementów można dodać tutaj.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Ustawienie określające wymaganie, aby określony składnik był obecny w celu zwrócenia jednostki. Więcej informacji można znaleźć tutaj. Możliwe wartości to `learned`, `regex`, `list`lub `prebuilts`	`"learned", "prebuilt"`

Format pliku wypowiedzi

Funkcja CLU oferuje opcję przekazania wypowiedzi bezpośrednio do projektu, a nie wpisywania ich w jednym po drugim. Tę opcję można znaleźć na stronie etykietowania danych dla projektu.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Klucz	Symbol zastępczy	Wartość	Przykład
`text`	`{Utterance-Text}`	Tekst wypowiedzi	Testowanie
`language`	`{LANGUAGE-CODE}`	Ciąg określający kod języka wypowiedzi używanych w projekcie. Jeśli projekt jest projektem wielojęzycznym, wybierz kod języka większości wypowiedzi. Aby uzyskać więcej informacji na temat obsługiwanych kodów języków, zobacz Obsługa języka .	`en-us`
`dataset`	`{DATASET}`	Zestaw testowy, do którego ta wypowiedź zostanie podzielona przed rozpoczęciem trenowania. Dowiedz się więcej o dzieleniu danych tutaj . Możliwe wartości dla tego pola to `Train` i `Test`.	`Train`
`intent`	`{intent}`	Przypisana intencja	intent1
`entity`	`{entity}`	Jednostka do wyodrębnienia	jednostka1
`category`		Typ jednostki skojarzonej z określonym zakresem tekstu.	`Entity1`
`offset`		Położenie znaku inkluzywnego początku tekstu.	`0`
`length`		Długość pola ograniczenia pod względem znaków UTF16. Trenowanie uwzględnia tylko dane w tym regionie.	`500`

Następne kroki

Dane z etykietami można zaimportować bezpośrednio do projektu. Aby uzyskać więcej informacji, zobacz importowanie projektu .
Zobacz artykuł z instrukcjami, aby uzyskać więcej informacji na temat etykietowania danych. Po zakończeniu etykietowania danych możesz wytrenować model.

Formaty danych akceptowane przez interpretację języka konwersacyjnego

Importowanie formatu pliku projektu

Format pliku wypowiedzi

Następne kroki

Dodatkowe zasoby