Uw gegevens labelen
Het labelen of taggen van uw gegevens is een belangrijk onderdeel van het proces voor het maken van een aangepast model voor entiteitextractie. Labels identificeren voorbeelden van specifieke entiteiten in tekst die worden gebruikt om het model te trainen. Drie aandachtspunten zijn:
- Consistentie : label uw gegevens op dezelfde manier in alle bestanden voor training. Met consistentie kan uw model leren zonder conflicterende invoer.
- Precisie : uw entiteiten consistent labelen, zonder onnodige extra woorden. Precisie zorgt ervoor dat alleen de juiste gegevens worden opgenomen in uw geëxtraheerde entiteit.
- Volledigheid : label uw gegevens volledig en mis geen entiteiten. Volledigheid helpt uw model altijd de aanwezige entiteiten te herkennen.
Uw gegevens labelen
Language Studio is de meest eenvoudige methode voor het labelen van uw gegevens. Met Language Studio kunt u het bestand zien, het begin en einde van uw entiteit selecteren en opgeven welke entiteit het is.
Elk label dat u identificeert, wordt opgeslagen in een bestand dat zich in uw opslagaccount bevindt met uw gegevensset, in een automatisch gegenereerd JSON-bestand. Dit bestand wordt vervolgens gebruikt door het model om te leren hoe u aangepaste entiteiten kunt extraheren. Het is mogelijk om dit bestand op te geven bij het maken van uw project (als u bijvoorbeeld dezelfde labels uit een ander project importeert), maar dit moet de aangepaste NER-gegevensindeling geaccepteerd hebben. Voorbeeld:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Veld | Beschrijving |
---|---|
documents |
Matrix van gelabelde documenten |
location |
Pad naar bestand binnen de container die is verbonden met het project |
language |
Taal van het bestand |
entities |
Matrix van huidige entiteiten in het huidige document |
regionOffset |
Inclusieve tekenpositie voor begin van tekst |
regionLength |
Lengte in tekens van de gegevens die in de training worden gebruikt |
category |
Naam van entiteit die moet worden geëxtraheerd |
labels |
Matrix van gelabelde entiteiten in de bestanden |
offset |
Inclusieve tekenpositie voor het begin van de entiteit |
length |
Lengte in tekens van de entiteit |
dataset |
Aan welke gegevensset het bestand is toegewezen |