Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Pokud se pokoušíte importovat data do vlastního NER, musí se řídit určitým formátem. Pokud nemáte data k importu, můžete vytvořit projekt a použít Microsoft Foundry k označení dokumentů.
Formát souboru popisků
Soubor popisky by měl být ve json formátu, abyste mohli importovat štítky do projektu.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Klíč | Zástupný symbol | Hodnota | Příklad |
|---|---|---|---|
multilingual |
true |
Logická hodnota, která umožňuje mít v datové sadě dokumenty ve více jazycích a při nasazení modelu můžete dotazovat model v libovolném podporovaném jazyce (nemusí nutně být součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v podpoře jazyků. | true |
projectName |
{PROJECT-NAME} |
Název projektu | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
Název kontejneru | mycontainer |
entities |
Pole obsahující všechny typy entit, které máte v projektu. Typy entit extrahované z vašich dokumentů. | ||
documents |
Pole obsahující všechny dokumenty v projektu a seznam entit označených v rámci každého dokumentu | [] | |
location |
{DOCUMENT-NAME} |
Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, mělo by se jednat o název dokumentu. | doc1.txt |
dataset |
{DATASET} |
Testovací sada, do které bude tento soubor zařazen před trénováním. Další informace o rozdělení dat najdete tady . Možné hodnoty pro toto pole jsou Train a Test. |
Train |
regionOffset |
Inkluzivní pozice znaku začátku textu. | 0 |
|
regionLength |
Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. | 500 |
|
category |
Typ entity přidružené k rozsahu zadaného textu. | Entity1 |
|
offset |
Počáteční pozice textu entity. | 25 |
|
length |
Délka entity z hlediska znaků UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud je projekt vícejazyčný, zvolte kód jazyka pro většinu dokumentů. Další informace najdete v tématuPodpora jazyků. | en-us |
Další kroky
- Data s popisky můžete do projektu importovat přímo. Naučte se importovat projekt.
- Další informace o označování dat najdete v článku s postupy. Až budete mít popisky dat, můžete model vytrénovat.