Beschriften Ihrer Daten
Das ordnungsgemäße Taggen (Markieren) Ihrer Daten ist ein wichtiger Teil des Prozesses zum Erstellen eines benutzerdefinierten Extraktionsmodells für Entitäten. Bezeichnungen identifizieren Beispiele für bestimmte Entitäten im Text, die zum Trainieren des Modells verwendet werden. Drei Faktoren, auf die Sie sich konzentrieren sollten, sind:
- Konsistenz – Taggen Sie Ihre Daten für das Training für alle Dateien auf dieselbe Weise. Konsistenz ermöglicht es Ihrem Modell, ohne widersprüchliche Eingaben zu lernen.
- Genauigkeit – Taggen Sie Ihre Entitäten konsistent, ohne unnötige zusätzliche Begriffe. Genauigkeit stellt sicher, dass nur die richtigen Daten in Ihre extrahierte Entität aufgenommen werden.
- Vollständigkeit – Taggen Sie Ihre Daten vollständig, und lassen Sie keine Entitäten aus. Vollständigkeit hilft Ihrem Modell, die vorhandenen Entitäten immer zu erkennen.
So bezeichnen Sie Ihre Daten
Language Studio ist die einfachste Methode zum Taggen Ihrer Daten. Mit Language Studio können Sie die Datei anzeigen, den Anfang und das Ende Ihrer Entität auswählen und angeben, um welche Entität es sich handelt.
Jedes von Ihnen identifizierte Tag wird in einer automatisch generierten JSON-Datei gespeichert, die zusammen mit Ihrem Dataset in Ihrem Speicherkonto abgelegt wird. Diese Datei wird dann vom Modell verwendet, um zu lernen, wie benutzerdefinierte Entitäten extrahiert werden können. Sie können diese Datei bei der Erstellung Ihres Projekts bereitstellen (wenn Sie z. B. dieselben Tags aus einem anderen Projekt importieren). Sie muss jedoch in einem der genehmigten benutzerdefinierten NER-Datenformate vorliegen. Beispiel:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Feld | Beschreibung |
---|---|
documents |
Array aus getaggten Dokumenten |
location |
Pfad zur Datei im Container, der mit dem Projekt verbunden ist |
language |
Sprache der Datei |
entities |
Array vorhandener Entitäten im aktuellen Dokument |
regionOffset |
Inklusive Zeichenposition für den Textanfang |
regionLength |
Länge der für das Training verwendeten Daten in Zeichen |
category |
Name der zu extrahierenden Entität |
labels |
Array aus getaggten Entitäten in den Dateien |
offset |
Inklusive Zeichenposition für den Start einer Entität |
length |
Länge der Entität in Zeichen |
dataset |
Welchem Dataset die Datei zugewiesen ist |