Geaccepteerde aangepaste NER-gegevensindelingen

Als u uw gegevens wilt importeren in een aangepaste NER, moet deze een specifieke indeling hebben. Als u geen gegevens hebt om te importeren, kunt u uw project maken en Language Studio gebruiken om uw documenten te labelen.

Bestandsindeling labels

Het bestand Labels moet de json onderstaande indeling hebben om te worden gebruikt bij het importeren van uw labels in een project.

{
  "projectFileVersion": "2022-05-01",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Sleutel Tijdelijke aanduiding Waarde Voorbeeld
multilingual true Een Booleaanse waarde waarmee u documenten in meerdere talen in uw gegevensset kunt hebben. Wanneer uw model is geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten). Zie Taalondersteuning voor meer informatie over meertalige ondersteuning. true
projectName {PROJECT-NAME} Projectnaam myproject
storageInputContainerName {CONTAINER-NAME} Containernaam mycontainer
entities Matrix met alle entiteitstypen die u in het project hebt. Dit zijn de entiteitstypen die uit uw documenten worden geëxtraheerd.
documents Matrix met alle documenten in uw project en een lijst met entiteiten die in elk document zijn gelabeld. []
location {DOCUMENT-NAME} De locatie van de documenten in de opslagcontainer. Aangezien alle documenten zich in de hoofdmap van de container bevinden, moet dit de naam van het document zijn. doc1.txt
dataset {DATASET} De testset waarnaar dit bestand wordt opgegeven wanneer deze vóór de training wordt gesplitst. Meer informatie over het splitsen van gegevens vindt u hier . Mogelijke waarden voor dit veld zijn Train en Test. Train
regionOffset De inclusieve tekenpositie van het begin van de tekst. 0
regionLength De lengte van het begrenzingsvak in termen van UTF16-tekens. Training houdt alleen rekening met de gegevens in deze regio. 500
category Het type entiteit dat is gekoppeld aan de opgegeven tekst. Entity1
offset De beginpositie voor de entiteitstekst. 25
length De lengte van de entiteit in termen van UTF16-tekens. 20
language {LANGUAGE-CODE} Een tekenreeks die de taalcode aangeeft voor het document dat in uw project wordt gebruikt. Als uw project een meertalig project is, kiest u de taalcode van het merendeel van de documenten. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes. en-us

Volgende stappen

  • U kunt uw gelabelde gegevens rechtstreeks in uw project importeren. Meer informatie over het importeren van een project
  • Zie het artikel met instructies voor meer informatie over het labelen van uw gegevens. Wanneer u klaar bent met het labelen van uw gegevens, kunt u uw model trainen.