Datenformate, die vom Verständnis von Unterhaltungssprache akzeptiert werden

Wenn Sie Ihre Daten in CLU hochladen, müssen sie einem bestimmten Format folgen. Verwenden Sie diesen Artikel, um mehr über akzeptierte Datenformate zu erfahren.

Projektdateiformat importieren

Wenn Sie in CLU ein Projekt importieren, muss sich die hochgeladene Datei im folgenden Format befinden.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Schlüssel Platzhalter Wert Beispiel
{API-VERSION} Dies ist die Version der von Ihnen aufgerufenen API. 2023-04-01
confidenceThreshold {CONFIDENCE-THRESHOLD} Dies ist die Schwellenwertbewertung, unterhalb derer die Absicht als None-Absicht vorhergesagt wird. Die Werte reichen von 0 bis 1 0.7
projectName {PROJECT-NAME} Der Name des Projekts. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet. EmailApp
multilingual true Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Äußerungen in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. true
sublists [] Array, das Unterlisten enthält. Jede Unterliste stellt einen Schlüssel und seine zugeordneten Werte dar. []
compositionSetting {COMPOSITION-SETTING} Regel, die definiert, wie mehrere Komponenten in Ihrer Entität verwaltet werden. Die verfügbaren Optionen sind combineComponents oder separateComponents. combineComponents
synonyms [] Array, das alle Synonyme enthält Synonym
language {LANGUAGE-CODE} Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendeten Äußerungen, Synonyme und regulären Ausdrücke angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der für die Mehrheit der Äußerungen verwendet wird. en-us
intents [] Array, das alle Absichten enthält, die du im Projekt hast. Dies sind die Absichten, die aus Ihren Äußerungen klassifiziert werden. []
entities [] Array, das alle Entitäten in Ihrem Projekt enthält. Dies sind die Entitäten, die aus Ihren Äußerungen extrahiert werden. Jede Entität kann zusätzliche optionale Komponenten aufweisen, die mit ihnen definiert werden: Liste, vordefiniert oder RegEx. []
dataset {DATASET} Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind Train und Test. Train
category Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist Entity1
offset Die inklusive Zeichenposition des Beginns der Entität. 5
length Die Zeichenlänge der Entität. 5
listKey Ein normalisierter Wert für die Liste der Synonyme, die der Vorhersage wieder zugeordnet werden sollen. Microsoft
values {VALUES-FOR-LIST} Eine Liste aus kommagetrennten Zeichenfolgen, für die bei der Extraktion genaue Übereinstimmung erforderlich ist und die dem Listenschlüssel zugeordnet werden. "msft", "microsoft", "MS"
regexKey {REGEX-PATTERN} Ein normalisierter Wert für den regulären Ausdruck, auf den bei der Vorhersage zurückgegriffen wird. ProductPattern1
regexPattern {REGEX-PATTERN} Ein regulärer Ausdruck. ^pre
prebuilts {PREBUILT-COMPONENTS} Die vordefinierten Komponenten, die allgemeine Typen extrahieren können. Hier finden Sie die Liste der vordefinierten Komponenten, die Sie hinzufügen können. Quantity.Number
requiredComponents {REQUIRED-COMPONENTS} Eine Einstellung, die eine Anforderung angibt, dass eine bestimmte Komponente vorhanden sein muss, um die Entität zurückzugeben. Weitere Informationen erhalten Sie hier. Die möglichen Werte sind learned, regex, list oder prebuilts. "learned", "prebuilt"

Dateiformat der Äußerung

CLU bietet die Option, Ihre Äußerung direkt in das Projekt hochzuladen, anstatt sie einzeln einzugeben. Sie finden diese Option auf der Seite Datenbezeichnung für Ihr Projekt.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Schlüssel Platzhalter Wert Beispiel
text {Utterance-Text} Ihr Äußerungstext Testen
language {LANGUAGE-CODE} Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendete Äußerung angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der für die Mehrheit der Äußerungen verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. en-us
dataset {DATASET} Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind Train und Test. Train
intent {intent} Die zugewiesene Absicht intent1
entity {entity} Zu extrahierende Entität entity1
category Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist Entity1
offset Die inklusive Zeichenposition des Textanfangs 0
length Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. 500

Nächste Schritte

  • Sie können Ihre beschrifteten Daten direkt in Ihr Projekt importieren. Weitere Informationen finden Sie im Importprojekt.
  • Weitere Informationen zum Beschriften Ihrer Daten finden Sie im Anleitungsartikel. Wenn Sie die Beschriftung Ihrer Daten abgeschlossen haben, können Sie Ihr Modell trainieren.