Datenformate, die vom Verständnis von Unterhaltungssprache akzeptiert werden

Artikel
12/19/2023

Wenn Sie Ihre Daten in CLU hochladen, müssen sie einem bestimmten Format folgen. Verwenden Sie diesen Artikel, um mehr über akzeptierte Datenformate zu erfahren.

Projektdateiformat importieren

Wenn Sie in CLU ein Projekt importieren, muss sich die hochgeladene Datei im folgenden Format befinden.

{
  "projectFileVersion": "2022-10-01-preview",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "Conversation",
    "projectName": "{PROJECT-NAME}",
    "multilingual": true,
    "description": "DESCRIPTION",
    "language": "{LANGUAGE-CODE}",
    "settings": {
            "confidenceThreshold": 0
        }
  },
  "assets": {
    "projectKind": "Conversation",
    "intents": [
      {
        "category": "intent1"
      }
    ],
    "entities": [
      {
        "category": "entity1",
        "compositionSetting": "{COMPOSITION-SETTING}",
        "list": {
          "sublists": [
            {
              "listKey": "list1",
              "synonyms": [
                {
                  "language": "{LANGUAGE-CODE}",
                  "values": [
                    "{VALUES-FOR-LIST}"
                  ]
                }
              ]
            }            
          ]
        },
        "prebuilts": [
          {
            "category": "{PREBUILT-COMPONENTS}"
          }
        ],
        "regex": {
          "expressions": [
              {
                  "regexKey": "regex1",
                  "language": "{LANGUAGE-CODE}",
                  "regexPattern": "{REGEX-PATTERN}"
              }
          ]
        },
        "requiredComponents": [
            "{REQUIRED-COMPONENTS}"
        ]
      }
    ],
    "utterances": [
      {
        "text": "utterance1",
        "intent": "intent1",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "category": "ENTITY1",
            "offset": 6,
            "length": 4
          }
        ]
      }
    ]
  }
}

Schlüssel	Platzhalter	Wert	Beispiel
`{API-VERSION}`	Dies ist die Version der von Ihnen aufgerufenen API.	`2023-04-01`
`confidenceThreshold`	`{CONFIDENCE-THRESHOLD}`	Dies ist die Schwellenwertbewertung, unterhalb derer die Absicht als None-Absicht vorhergesagt wird. Die Werte reichen von `0` bis `1`	`0.7`
`projectName`	`{PROJECT-NAME}`	Der Name des Projekts. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`EmailApp`
`multilingual`	`true`	Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Äußerungen in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung.	`true`
`sublists`	`[]`	Array, das Unterlisten enthält. Jede Unterliste stellt einen Schlüssel und seine zugeordneten Werte dar.	`[]`
`compositionSetting`	`{COMPOSITION-SETTING}`	Regel, die definiert, wie mehrere Komponenten in Ihrer Entität verwaltet werden. Die verfügbaren Optionen sind `combineComponents` oder `separateComponents`.	`combineComponents`
`synonyms`	`[]`	Array, das alle Synonyme enthält	Synonym
`language`	`{LANGUAGE-CODE}`	Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendeten Äußerungen, Synonyme und regulären Ausdrücke angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der für die Mehrheit der Äußerungen verwendet wird.	`en-us`
`intents`	`[]`	Array, das alle Absichten enthält, die du im Projekt hast. Dies sind die Absichten, die aus Ihren Äußerungen klassifiziert werden.	`[]`
`entities`	`[]`	Array, das alle Entitäten in Ihrem Projekt enthält. Dies sind die Entitäten, die aus Ihren Äußerungen extrahiert werden. Jede Entität kann zusätzliche optionale Komponenten aufweisen, die mit ihnen definiert werden: Liste, vordefiniert oder RegEx.	`[]`
`dataset`	`{DATASET}`	Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind `Train` und `Test`.	`Train`
`category`		Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist	`Entity1`
`offset`		Die inklusive Zeichenposition des Beginns der Entität.	`5`
`length`		Die Zeichenlänge der Entität.	`5`
`listKey`		Ein normalisierter Wert für die Liste der Synonyme, die der Vorhersage wieder zugeordnet werden sollen.	`Microsoft`
`values`	`{VALUES-FOR-LIST}`	Eine Liste aus kommagetrennten Zeichenfolgen, für die bei der Extraktion genaue Übereinstimmung erforderlich ist und die dem Listenschlüssel zugeordnet werden.	`"msft", "microsoft", "MS"`
`regexKey`	`{REGEX-PATTERN}`	Ein normalisierter Wert für den regulären Ausdruck, auf den bei der Vorhersage zurückgegriffen wird.	`ProductPattern1`
`regexPattern`	`{REGEX-PATTERN}`	Ein regulärer Ausdruck.	`^pre`
`prebuilts`	`{PREBUILT-COMPONENTS}`	Die vordefinierten Komponenten, die allgemeine Typen extrahieren können. Hier finden Sie die Liste der vordefinierten Komponenten, die Sie hinzufügen können.	`Quantity.Number`
`requiredComponents`	`{REQUIRED-COMPONENTS}`	Eine Einstellung, die eine Anforderung angibt, dass eine bestimmte Komponente vorhanden sein muss, um die Entität zurückzugeben. Weitere Informationen erhalten Sie hier. Die möglichen Werte sind `learned`, `regex`, `list` oder `prebuilts`.	`"learned", "prebuilt"`

Dateiformat der Äußerung

CLU bietet die Option, Ihre Äußerung direkt in das Projekt hochzuladen, anstatt sie einzeln einzugeben. Sie finden diese Option auf der Seite Datenbezeichnung für Ihr Projekt.

[
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 19,
                "length": 10
            }
        ]
    },
    {
        "text": "{Utterance-Text}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "intent": "{intent}",
        "entities": [
            {
                "category": "{entity}",
                "offset": 20,
                "length": 10
            },
            {
                "category": "{entity}",
                "offset": 31,
                "length": 5
            }
        ]
    }
]

Schlüssel	Platzhalter	Wert	Beispiel
`text`	`{Utterance-Text}`	Ihr Äußerungstext	Testen
`language`	`{LANGUAGE-CODE}`	Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendete Äußerung angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der für die Mehrheit der Äußerungen verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung.	`en-us`
`dataset`	`{DATASET}`	Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind `Train` und `Test`.	`Train`
`intent`	`{intent}`	Die zugewiesene Absicht	intent1
`entity`	`{entity}`	Zu extrahierende Entität	entity1
`category`		Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist	`Entity1`
`offset`		Die inklusive Zeichenposition des Textanfangs	`0`
`length`		Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt.	`500`

Nächste Schritte

Sie können Ihre beschrifteten Daten direkt in Ihr Projekt importieren. Weitere Informationen finden Sie im Importprojekt.
Weitere Informationen zum Beschriften Ihrer Daten finden Sie im Anleitungsartikel. Wenn Sie die Beschriftung Ihrer Daten abgeschlossen haben, können Sie Ihr Modell trainieren.

Datenformate, die vom Verständnis von Unterhaltungssprache akzeptiert werden

Projektdateiformat importieren

Dateiformat der Äußerung

Nächste Schritte

Zusätzliche Ressourcen