Datenformate, die vom Verständnis von Unterhaltungssprache akzeptiert werden
Wenn Sie Ihre Daten in Conversational Language Understanding hochladen, müssen sie einem bestimmten Format entsprechen. In diesem Artikel erfahren Sie mehr über akzeptierte Datenformate.
Projektdateiformat importieren
Wenn Sie ein Projekt in Conversational Language Understanding importieren, muss die hochgeladene Datei im folgenden Format vorliegen:
{
"projectFileVersion": "2022-10-01-preview",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "Conversation",
"projectName": "{PROJECT-NAME}",
"multilingual": true,
"description": "DESCRIPTION",
"language": "{LANGUAGE-CODE}",
"settings": {
"confidenceThreshold": 0
}
},
"assets": {
"projectKind": "Conversation",
"intents": [
{
"category": "intent1"
}
],
"entities": [
{
"category": "entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "list1",
"synonyms": [
{
"language": "{LANGUAGE-CODE}",
"values": [
"{VALUES-FOR-LIST}"
]
}
]
}
]
},
"prebuilts": [
{
"category": "{PREBUILT-COMPONENTS}"
}
],
"regex": {
"expressions": [
{
"regexKey": "regex1",
"language": "{LANGUAGE-CODE}",
"regexPattern": "{REGEX-PATTERN}"
}
]
},
"requiredComponents": [
"{REQUIRED-COMPONENTS}"
]
}
],
"utterances": [
{
"text": "utterance1",
"intent": "intent1",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"category": "ENTITY1",
"offset": 6,
"length": 4
}
]
}
]
}
}
Schlüssel | Platzhalter | Wert | Beispiel |
---|---|---|---|
{API-VERSION} |
Die Version der von Ihnen aufgerufenen API. | 2023-04-01 |
|
confidenceThreshold |
{CONFIDENCE-THRESHOLD} |
Dies ist die Schwellenwertbewertung, unterhalb derer die Absicht als None-Absicht vorhergesagt wird. Die Werte reichen von 0 bis 1 . |
0.7 |
projectName |
{PROJECT-NAME} |
Der Name des Projekts. Bei diesem Wert die Groß-/Kleinschreibung beachten. | EmailApp |
multilingual |
true |
Ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Äußerungen in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (nicht unbedingt in Ihren Trainingsdokumenten enthalten). Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. | true |
sublists |
[] |
Array, das Unterlisten enthält. Jede Unterliste stellt einen Schlüssel und seine zugeordneten Werte dar. | [] |
compositionSetting |
{COMPOSITION-SETTING} |
Regel, die definiert, wie mehrere Komponenten in Ihrer Entität verwaltet werden. Die verfügbaren Optionen sind combineComponents oder separateComponents . |
combineComponents |
synonyms |
[] |
Array, das alle Synonyme enthält | Synonym |
language |
{LANGUAGE-CODE} |
Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendeten Äußerungen, Synonyme und regulären Ausdrücke angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der bei den meisten Äußerungen verwendet wird. | en-us |
intents |
[] |
Array, das alle Absichten enthält, die im Projekt vorhanden sind. Diese Absichten werden von Ihren Äußerungen klassifiziert. | [] |
entities |
[] |
Array, das alle Entitäten in Ihrem Projekt enthält. Diese Entitäten werden aus Ihren Äußerungen extrahiert. Jede Entität kann andere optionale Komponenten aufweisen, die mit ihnen definiert werden: Liste, vordefiniert oder RegEx. | [] |
dataset |
{DATASET} |
Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zum Teilen von Daten finden Sie unter Trainieren Ihre Conversational Language Understanding-Modells. Mögliche Werte für dieses Feld sind Train und Test . |
Train |
category |
|
Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist | Entity1 |
offset |
|
Die inklusive Zeichenposition des Beginns der Entität. | 5 |
length |
|
Die Zeichenlänge der Entität. | 5 |
listKey |
|
Ein normalisierter Wert für die Liste der Synonyme, die der Vorhersage wieder zugeordnet werden sollen. | Microsoft |
values |
{VALUES-FOR-LIST} |
Eine Liste aus kommagetrennten Zeichenfolgen, für die bei der Extraktion genaue Übereinstimmung erforderlich ist und die dem Listenschlüssel zugeordnet werden. | "msft", "microsoft", "MS" |
regexKey |
{REGEX-PATTERN} |
Ein normalisierter Wert für den regulären Ausdruck, auf den bei der Vorhersage zurückgegriffen wird. | ProductPattern1 |
regexPattern |
{REGEX-PATTERN} |
Ein regulärer Ausdruck. | ^pre |
prebuilts |
{PREBUILT-COMPONENTS} |
Die vordefinierten Komponenten, die allgemeine Typen extrahieren können. Die Liste der vordefinierten Komponenten, die Sie hinzufügen können, finden Sie unter Unterstützte vordefinierte Entitätskomponenten. | Quantity.Number |
requiredComponents |
{REQUIRED-COMPONENTS} |
Eine Einstellung, die eine Anforderung angibt, dass eine bestimmte Komponente vorhanden sein muss, um die Entität zurückzugeben. Weitere Informationen finden Sie unter Entitätskomponenten. Die möglichen Werte sind learned , regex , list oder prebuilts . |
"learned", "prebuilt" |
Dateiformat der Äußerung
Conversational Language Understanding bietet die Möglichkeit, Ihre Äußerungen direkt in das Projekt hochzuladen, anstatt sie einzeln einzugeben. Sie finden diese Option auf der Seite Datenbezeichnung für Ihr Projekt.
[
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 19,
"length": 10
}
]
},
{
"text": "{Utterance-Text}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"intent": "{intent}",
"entities": [
{
"category": "{entity}",
"offset": 20,
"length": 10
},
{
"category": "{entity}",
"offset": 31,
"length": 5
}
]
}
]
Schlüssel | Platzhalter | Wert | Beispiel |
---|---|---|---|
text |
{Utterance-Text} |
Ihr Äußerungstext | Testen |
language |
{LANGUAGE-CODE} |
Hierbei handelt es sich um eine Zeichenfolge, die den Sprachcode für die in Ihrem Projekt verwendeten Äußerungen angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode aus, der bei den meisten Äußerungen verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. | en-us |
dataset |
{DATASET} |
Dies ist der Testsatz, in den diese Äußerung bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zum Teilen von Daten finden Sie unter Trainieren Ihre Conversational Language Understanding-Modells. Mögliche Werte für dieses Feld sind Train und Test . |
Train |
intent |
{intent} |
Die zugewiesene Absicht | intent1 |
entity |
{entity} |
Die zu extrahierende Entität | entity1 |
category |
|
Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist | Entity1 |
offset |
|
Die inklusive Zeichenposition des Textanfangs | 0 |
length |
|
Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. | 500 |
Zugehöriger Inhalt
- Weitere Informationen zum direkten Importieren Ihrer bezeichneten Daten in Ihr Projekt finden Sie unter Importieren des Projekts.
- Weitere Informationen zum Bezeichnen Ihrer Daten finden Sie unter Beschriften Ihrer Äußerungen in Language Studio. Nachdem Sie Ihre Daten beschriftet haben, können Sie Ihr Modell trainieren.