Uw gegevens labelen

Voltooid

Het labelen of taggen van uw gegevens is een belangrijk onderdeel van het proces voor het maken van een aangepast model voor entiteitextractie. Labels identificeren voorbeelden van specifieke entiteiten in tekst die worden gebruikt om het model te trainen. Drie aandachtspunten zijn:

  • Consistentie : label uw gegevens op dezelfde manier in alle bestanden voor training. Met consistentie kan uw model leren zonder conflicterende invoer.
  • Precisie : uw entiteiten consistent labelen, zonder onnodige extra woorden. Precisie zorgt ervoor dat alleen de juiste gegevens worden opgenomen in uw geëxtraheerde entiteit.
  • Volledigheid : label uw gegevens volledig en mis geen entiteiten. Volledigheid helpt uw model altijd de aanwezige entiteiten te herkennen.

Screenshot of labeling an entity in Language Studio.

Uw gegevens labelen

Language Studio is de meest eenvoudige methode voor het labelen van uw gegevens. Met Language Studio kunt u het bestand zien, het begin en einde van uw entiteit selecteren en opgeven welke entiteit het is.

Elk label dat u identificeert, wordt opgeslagen in een bestand dat zich in uw opslagaccount bevindt met uw gegevensset, in een automatisch gegenereerd JSON-bestand. Dit bestand wordt vervolgens gebruikt door het model om te leren hoe u aangepaste entiteiten kunt extraheren. Het is mogelijk om dit bestand op te geven bij het maken van uw project (als u bijvoorbeeld dezelfde labels uit een ander project importeert), maar dit moet de aangepaste NER-gegevensindeling geaccepteerd hebben. Voorbeeld:


{
  "projectFileVersion": "{DATE}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectKind": "CustomEntityRecognition",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectName": "{PROJECT-NAME}",
    "multilingual": false,
    "description": "Project-description",
    "language": "en-us",
    "settings": {}
  },
  "assets": {
    "projectKind": "CustomEntityRecognition",
    "entities": [
      {
        "category": "Entity1"
      },
      {
        "category": "Entity2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 500,
            "labels": [
              {
                "category": "Entity1",
                "offset": 25,
                "length": 10
              },
              {
                "category": "Entity2",
                "offset": 120,
                "length": 8
              }
            ]
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "entities": [
          {
            "regionOffset": 0,
            "regionLength": 100,
            "labels": [
              {
                "category": "Entity2",
                "offset": 20,
                "length": 5
              }
            ]
          }
        ]
      }
    ]
  }
}

Veld Beschrijving
documents Matrix van gelabelde documenten
location Pad naar bestand binnen de container die is verbonden met het project
language Taal van het bestand
entities Matrix van huidige entiteiten in het huidige document
regionOffset Inclusieve tekenpositie voor begin van tekst
regionLength Lengte in tekens van de gegevens die in de training worden gebruikt
category Naam van entiteit die moet worden geëxtraheerd
labels Matrix van gelabelde entiteiten in de bestanden
offset Inclusieve tekenpositie voor het begin van de entiteit
length Lengte in tekens van de entiteit
dataset Aan welke gegevensset het bestand is toegewezen