Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wenn Sie versuchen, ihre Daten in die benutzerdefinierte Erkennung benannter Entitäten zu importieren, müssen diese ein bestimmtes Format aufweisen. Wenn Sie keine Zu importierenden Daten haben, können Sie Ihr Projekt erstellen und Microsoft Foundry verwenden, um Ihre Dokumente zu beschriften.
Format der Beschriftungsdatei
Die Bezeichnungsdatei sollte im json Format für den Import Ihrer Bezeichnungen in ein Projekt vorliegen.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Schlüssel | Platzhalter | Wert | Beispiel |
|---|---|---|---|
multilingual |
true |
Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung. | true |
projectName |
{PROJECT-NAME} |
Projektname | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
Containername | mycontainer |
entities |
Array mit allen Entitätstypen, die im Projekt enthalten sind. Entitätstypen, die aus Ihren Dokumenten extrahiert wurden. | ||
documents |
Dies ist ein Array mit allen Dokumenten in Ihrem Projekt und die Liste der Entitäten, die innerhalb jedes Dokuments gekennzeichnet sind. | ? | |
location |
{DOCUMENT-NAME} |
Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dieser Wert dem Dokumentnamen entsprechen. | doc1.txt |
dataset |
{DATASET} |
Das Testset, an das diese Datei vor dem Training aufgeteilt wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind Train und Test. |
Train |
regionOffset |
Die inklusive Zeichenposition des Textanfangs | 0 |
|
regionLength |
Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. | 500 |
|
category |
Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist | Entity1 |
|
offset |
Die Startposition für den Entitätstext | 25 |
|
length |
Die Länge der Entität in UTF16-Zeichen | 20 |
|
language |
{LANGUAGE-CODE} |
Eine Zeichenfolge, die den Sprachcode für das in Ihrem Projekt verwendete Dokument angibt. Wenn Ihr Projekt ein mehrsprachiges Projekt ist, wählen Sie den Sprachcode für die meisten Dokumente aus. Weitere Informationen finden Sie unter Sprachunterstützung. | en-us |
Nächste Schritte
- Sie können Ihre beschrifteten Daten direkt in Ihr Projekt importieren. Importieren von Projekten
- Weitere Informationen zum Beschriften Ihrer Daten finden Sie im Anleitungsartikel. Wenn Sie die Beschriftung Ihrer Daten abgeschlossen haben, können Sie Ihr Modell trainieren.