Freigeben über


Datenformate, die vom Verständnis von Unterhaltungssprache akzeptiert werden

Wenn Sie Ihre Daten in Conversational Language Understanding hochladen, müssen sie einem bestimmten Format entsprechen. In diesem Artikel erfahren Sie mehr über akzeptierte Datenformate.

Projektdateiformat importieren

Wenn Sie ein Projekt in Conversational Language Understanding importieren, muss die hochgeladene Datei im folgenden Format vorliegen:

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Schlüssel Platzhalter Wert Beispiel
{API-VERSION} Die Version der von Ihnen aufgerufenen API. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Dies ist die Schwellenwertbewertung, unterhalb derer die Absicht als None-Absicht vorhergesagt wird. Die Werte reichen von 0 bis 1. 0.7
projectName {PROJECT-NAME} Der Name des Projekts. Bei diesem Wert die Groß-/Kleinschreibung beachten. EmailApp
multilingual true Ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Äußerungen in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (nicht unbedingt in Ihren Trainingsdokumenten enthalten). Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. true
sublists [] Array, das Unterlisten enthält. Jede Unterliste stellt einen Schlüssel und seine zugeordneten Werte dar. []
compositionSetting {COMPOSITION-SETTING} Regel, die definiert, wie mehrere Komponenten in Ihrer Entität verwaltet werden. Die verfügbaren Optionen sind combineComponents oder separateComponents. combineComponents
synonyms [] Array, das alle Synonyme enthält Synonym
language {LANGUAGE-CODE} Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendeten Äußerungen, Synonyme und regulären Ausdrücke angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der bei den meisten Äußerungen verwendet wird. en-us
intents [] Array, das alle Absichten enthält, die im Projekt vorhanden sind. Diese Absichten werden von Ihren Äußerungen klassifiziert. []
entities [] Array, das alle Entitäten in Ihrem Projekt enthält. Diese Entitäten werden aus Ihren Äußerungen extrahiert. Jede Entität kann andere optionale Komponenten aufweisen, die mit ihnen definiert werden: Liste, vordefiniert oder RegEx. []
dataset {DATASET} Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zum Teilen von Daten finden Sie unter Trainieren Ihre Conversational Language Understanding-Modells. Mögliche Werte für dieses Feld sind Train und Test. Train
category Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist Entity1
offset Die inklusive Zeichenposition des Beginns der Entität. 5
length Die Zeichenlänge der Entität. 5
listKey Ein normalisierter Wert für die Liste der Synonyme, die der Vorhersage wieder zugeordnet werden sollen. Microsoft
values {VALUES-FOR-LIST} Eine Liste aus kommagetrennten Zeichenfolgen, für die bei der Extraktion genaue Übereinstimmung erforderlich ist und die dem Listenschlüssel zugeordnet werden. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Ein normalisierter Wert für den regulären Ausdruck, auf den bei der Vorhersage zurückgegriffen wird. ProductPattern1
regexPattern {REGEX-PATTERN} Ein regulärer Ausdruck. ^pre
prebuilts {PREBUILT-COMPONENTS} Die vordefinierten Komponenten, die allgemeine Typen extrahieren können. Die Liste der vordefinierten Komponenten, die Sie hinzufügen können, finden Sie unter Unterstützte vordefinierte Entitätskomponenten. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Eine Einstellung, die eine Anforderung angibt, dass eine bestimmte Komponente vorhanden sein muss, um die Entität zurückzugeben. Weitere Informationen finden Sie unter Entitätskomponenten. Die möglichen Werte sind learned, regex, list oder prebuilts. "learned", "prebuilt"

Dateiformat der Äußerung

Conversational Language Understanding bietet die Möglichkeit, Ihre Äußerungen direkt in das Projekt hochzuladen, anstatt sie einzeln einzugeben. Sie finden diese Option auf der Seite Datenbezeichnung für Ihr Projekt.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Schlüssel Platzhalter Wert Beispiel
text {Utterance-Text} Ihr Äußerungstext Testen
language {LANGUAGE-CODE} Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendeten Äußerungen angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der bei den meisten Äußerungen verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. en-us
dataset {DATASET} Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zum Teilen von Daten finden Sie unter Trainieren Ihre Conversational Language Understanding-Modells. Mögliche Werte für dieses Feld sind Train und Test. Train
intent {intent} Die zugewiesene Absicht intent1
entity {entity} Die zu extrahierende Entität entity1
category Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist Entity1
offset Die inklusive Zeichenposition des Textanfangs 0
length Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. 500