Akzeptierte Datenformate für die Erkennung benannter Entitäten
Wenn Sie versuchen, Daten in die benutzerdefinierte Erkennung benannter Entitäten zu importieren, müssen diese ein bestimmtes Format aufweisen. Wenn Sie keine Daten importieren müssen, können Sie Ihr Projekt erstellen und Language Studio zum Beschriften Ihrer Dokumente verwenden.
Format der Beschriftungsdatei
Ihre Beschriftungsdatei sollte das folgende json
-Format aufweisen, damit sie für das Importieren Ihrer Beschriftungen in ein Projekt verwendet werden kann.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Schlüssel | Platzhalter | Wert | Beispiel |
---|---|---|---|
multilingual |
true |
Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung. | true |
projectName |
{PROJECT-NAME} |
Projektname | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Containername | mycontainer |
entities |
Dies ist ein Array mit allen Entitätstypen, die im Projekt enthalten sind. Dies sind die Entitätstypen, die aus Ihren Dokumenten extrahiert werden. | ||
documents |
Dies ist ein Array mit allen Dokumenten in Ihrem Projekt und die Liste der Entitäten, die innerhalb jedes Dokuments gekennzeichnet sind. | [] | |
location |
{DOCUMENT-NAME} |
Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dies der Dokumentname sein. | doc1.txt |
dataset |
{DATASET} |
Dies ist der Testdatensatz, in den diese Datei bei der Aufteilung vor dem Training aufgenommen wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind Train und Test . |
Train |
regionOffset |
Die inklusive Zeichenposition des Textanfangs | 0 |
|
regionLength |
Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. | 500 |
|
category |
Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist | Entity1 |
|
offset |
Die Startposition für den Entitätstext | 25 |
|
length |
Die Länge der Entität in UTF16-Zeichen | 20 |
|
language |
{LANGUAGE-CODE} |
Eine Zeichenfolge, die den Sprachcode für das in Ihrem Projekt verwendete Dokument angibt. Wählen Sie bei einem mehrsprachigen Projekt den Sprachcode für die Sprache aus, die in den meisten Dokumenten verwendet wird. Weitere Informationen zu unterstützten Sprachcodes finden Sie unter Sprachunterstützung. | en-us |
Nächste Schritte
- Sie können Ihre beschrifteten Daten direkt in Ihr Projekt importieren. Importieren von Projekten
- Weitere Informationen zum Beschriften Ihrer Daten finden Sie im Anleitungsartikel. Wenn Sie die Beschriftung Ihrer Daten abgeschlossen haben, können Sie Ihr Modell trainieren.