Geaccepteerde aangepaste NER-gegevensindelingen
Als u uw gegevens wilt importeren in een aangepaste NER, moet deze een specifieke indeling hebben. Als u geen gegevens hebt om te importeren, kunt u uw project maken en Language Studio gebruiken om uw documenten te labelen.
Bestandsindeling labels
Het bestand Labels moet de json
onderstaande indeling hebben om te worden gebruikt bij het importeren van uw labels in een project.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Sleutel | Tijdelijke aanduiding | Waarde | Voorbeeld |
---|---|---|---|
multilingual |
true |
Een Booleaanse waarde waarmee u documenten in meerdere talen in uw gegevensset kunt hebben. Wanneer uw model is geïmplementeerd, kunt u een query uitvoeren op het model in elke ondersteunde taal (niet noodzakelijkerwijs opgenomen in uw trainingsdocumenten). Zie Taalondersteuning voor meer informatie over meertalige ondersteuning. | true |
projectName |
{PROJECT-NAME} |
Projectnaam | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Containernaam | mycontainer |
entities |
Matrix met alle entiteitstypen die u in het project hebt. Dit zijn de entiteitstypen die uit uw documenten worden geëxtraheerd. | ||
documents |
Matrix met alle documenten in uw project en een lijst met entiteiten die in elk document zijn gelabeld. | [] | |
location |
{DOCUMENT-NAME} |
De locatie van de documenten in de opslagcontainer. Aangezien alle documenten zich in de hoofdmap van de container bevinden, moet dit de naam van het document zijn. | doc1.txt |
dataset |
{DATASET} |
De testset waarnaar dit bestand wordt opgegeven wanneer deze vóór de training wordt gesplitst. Meer informatie over het splitsen van gegevens vindt u hier . Mogelijke waarden voor dit veld zijn Train en Test . |
Train |
regionOffset |
De inclusieve tekenpositie van het begin van de tekst. | 0 |
|
regionLength |
De lengte van het begrenzingsvak in termen van UTF16-tekens. Training houdt alleen rekening met de gegevens in deze regio. | 500 |
|
category |
Het type entiteit dat is gekoppeld aan de opgegeven tekst. | Entity1 |
|
offset |
De beginpositie voor de entiteitstekst. | 25 |
|
length |
De lengte van de entiteit in termen van UTF16-tekens. | 20 |
|
language |
{LANGUAGE-CODE} |
Een tekenreeks die de taalcode aangeeft voor het document dat in uw project wordt gebruikt. Als uw project een meertalig project is, kiest u de taalcode van het merendeel van de documenten. Zie Taalondersteuning voor meer informatie over ondersteunde taalcodes. | en-us |
Volgende stappen
- U kunt uw gelabelde gegevens rechtstreeks in uw project importeren. Meer informatie over het importeren van een project
- Zie het artikel met instructies voor meer informatie over het labelen van uw gegevens. Wanneer u klaar bent met het labelen van uw gegevens, kunt u uw model trainen.