Beschriften Ihrer Daten

Abgeschlossen

Das ordnungsgemäße Taggen (Markieren) Ihrer Daten ist ein wichtiger Teil des Prozesses zum Erstellen eines benutzerdefinierten Extraktionsmodells für Entitäten. Bezeichnungen identifizieren Beispiele für bestimmte Entitäten im Text, die zum Trainieren des Modells verwendet werden. Drei Faktoren, auf die Sie sich konzentrieren sollten, sind:

  • Konsistenz – Taggen Sie Ihre Daten für das Training für alle Dateien auf dieselbe Weise. Konsistenz ermöglicht es Ihrem Modell, ohne widersprüchliche Eingaben zu lernen.
  • Genauigkeit – Taggen Sie Ihre Entitäten konsistent, ohne unnötige zusätzliche Begriffe. Genauigkeit stellt sicher, dass nur die richtigen Daten in Ihre extrahierte Entität aufgenommen werden.
  • Vollständigkeit – Taggen Sie Ihre Daten vollständig, und lassen Sie keine Entitäten aus. Vollständigkeit hilft Ihrem Modell, die vorhandenen Entitäten immer zu erkennen.

Screenshot of labeling an entity in Language Studio.

So bezeichnen Sie Ihre Daten

Language Studio ist die einfachste Methode zum Taggen Ihrer Daten. Mit Language Studio können Sie die Datei anzeigen, den Anfang und das Ende Ihrer Entität auswählen und angeben, um welche Entität es sich handelt.

Jedes von Ihnen identifizierte Tag wird in einer automatisch generierten JSON-Datei gespeichert, die zusammen mit Ihrem Dataset in Ihrem Speicherkonto abgelegt wird. Diese Datei wird dann vom Modell verwendet, um zu lernen, wie benutzerdefinierte Entitäten extrahiert werden können. Sie können diese Datei bei der Erstellung Ihres Projekts bereitstellen (wenn Sie z. B. dieselben Tags aus einem anderen Projekt importieren). Sie muss jedoch in einem der genehmigten benutzerdefinierten NER-Datenformate vorliegen. Beispiel:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Feld Beschreibung
documents Array aus getaggten Dokumenten
location Pfad zur Datei im Container, der mit dem Projekt verbunden ist
language Sprache der Datei
entities Array vorhandener Entitäten im aktuellen Dokument
regionOffset Inklusive Zeichenposition für den Textanfang
regionLength Länge der für das Training verwendeten Daten in Zeichen
category Name der zu extrahierenden Entität
labels Array aus getaggten Entitäten in den Dateien
offset Inklusive Zeichenposition für den Start einer Entität
length Länge der Entität in Zeichen
dataset Welchem Dataset die Datei zugewiesen ist