Freigeben über


Akzeptierte Datenformate für die Erkennung benannter Entitäten

Wenn Sie versuchen, ihre Daten in die benutzerdefinierte Erkennung benannter Entitäten zu importieren, müssen diese ein bestimmtes Format aufweisen. Wenn Sie keine Zu importierenden Daten haben, können Sie Ihr Projekt erstellen und Microsoft Foundry verwenden, um Ihre Dokumente zu beschriften.

Format der Beschriftungsdatei

Die Bezeichnungsdatei sollte im json Format für den Import Ihrer Bezeichnungen in ein Projekt vorliegen.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Schlüssel Platzhalter Wert Beispiel
multilingual true Dies ist ein boolescher Wert, der es ermöglicht, dass Ihr Dataset Dokumente in mehreren Sprachen enthält. Wenn Ihr Modell bereitgestellt wird, können Sie das Modell in jeder unterstützten Sprache abfragen (die nicht zwangsläufig in Ihren Trainingsdokumenten enthalten ist). Informationen zur Unterstützung mehrerer Sprachen finden Sie unter Sprachunterstützung. true
projectName {PROJECT-NAME} Projektname myproject
storageInputContainerName {CONTAINER-NAME} Containername mycontainer
entities Array mit allen Entitätstypen, die im Projekt enthalten sind. Entitätstypen, die aus Ihren Dokumenten extrahiert wurden.
documents Dies ist ein Array mit allen Dokumenten in Ihrem Projekt und die Liste der Entitäten, die innerhalb jedes Dokuments gekennzeichnet sind. ?
location {DOCUMENT-NAME} Dies ist der Speicherort der Dokumente im Speichercontainer. Da sich alle Dokumente im Stammverzeichnis des Containers befinden, sollte dieser Wert dem Dokumentnamen entsprechen. doc1.txt
dataset {DATASET} Das Testset, an das diese Datei vor dem Training aufgeteilt wird. Weitere Informationen zur Datenaufteilung finden Sie hier Mögliche Werte für dieses Feld sind Train und Test. Train
regionOffset Die inklusive Zeichenposition des Textanfangs 0
regionLength Die Länge des Begrenzungsfelds, ausgedrückt in UTF16-Zeichen Beim Trainieren werden nur die Daten in dieser Region berücksichtigt. 500
category Der Typ der Entität, die dem angegebenen Textbereich zugeordnet ist Entity1
offset Die Startposition für den Entitätstext 25
length Die Länge der Entität in UTF16-Zeichen 20
language {LANGUAGE-CODE} Eine Zeichenfolge, die den Sprachcode für das in Ihrem Projekt verwendete Dokument angibt. Wenn Ihr Projekt ein mehrsprachiges Projekt ist, wählen Sie den Sprachcode für die meisten Dokumente aus. Weitere Informationen finden Sie unter Sprachunterstützung. en-us

Nächste Schritte