Akceptované formáty dat ve vlastní analýze textu pro stav
V tomto článku se dozvíte o formátování dat, která se mají importovat do vlastní analýzy textu pro účely stavu.
Pokud se pokoušíte importovat data do Textová Analýza na míru pro zdravotnictví, musí být v určitém formátu. Pokud nemáte data k importu, můžete vytvořit projekt a použít Jazykové studio k označení dokumentů.
Soubor Popisky by měl být v json
následujícím formátu, který se má použít při importu štítků do projektu.
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Klíč | Zástupný symbol | Hodnota | Příklad |
---|---|---|---|
multilingual |
true |
Logická hodnota, která umožňuje mít v datové sadě dokumenty v několika jazycích, a když je model nasazený, můžete se na model dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v tématu Podpora jazyků . | true |
projectName |
{PROJECT-NAME} |
Název projektu | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
Název kontejneru | mycontainer |
entities |
Pole obsahující všechny typy entit, které máte v projektu. Jedná se o typy entit, do které se budou extrahovat z vašich dokumentů. | ||
category |
Název typu entity, který může být definován uživatelem pro nové definice entit nebo předdefinovaný pro předem vytvořené entity. Další informace najdete níže v pravidlech pojmenování entit. | ||
compositionSetting |
{COMPOSITION-SETTING} |
Pravidlo, které definuje, jak spravovat více komponent v entitě. Možnosti jsou combineComponents nebo separateComponents . |
combineComponents |
list |
Pole obsahující všechny dílčí seznamy, které máte v projektu pro konkrétní entitu. Seznamy je možné přidat do předem připravených entit nebo nových entit s naučenými komponentami. | ||
sublists |
[] |
Pole obsahující dílčí seznamy. Každý podseznam je klíč a jeho přidružené hodnoty. | [] |
listKey |
One |
Normalizovaná hodnota seznamu synonym, na která se má mapovat zpět v predikci. | One |
synonyms |
[] |
Pole obsahující všechna synonyma | Synonymum |
language |
{LANGUAGE-CODE} |
Řetězec určující kód jazyka pro synonymum v podsoučtu. Pokud je váš projekt vícejazyčný projekt a chcete podporovat seznam synonym pro všechny jazyky v projektu, musíte do každého jazyka explicitně přidat synonyma. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. | en |
values |
"EntityNumberone" , "FirstEntity" |
Seznam řetězců oddělených čárkami, které budou přesně spárovány pro extrakci a mapování na klíč seznamu. | "EntityNumberone" , "FirstEntity" |
prebuilts |
MedicationName |
Název předem připravené komponenty, která naplňuje předem připravenou entitu. Předem připravené entity se ve výchozím nastavení automaticky načtou do projektu, ale můžete je rozšířit o komponenty seznamu v souboru štítků. | MedicationName |
documents |
Pole obsahující všechny dokumenty v projektu a seznam entit označených v jednotlivých dokumentech. | [] | |
location |
{DOCUMENT-NAME} |
Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měl by to být název dokumentu. | doc1.txt |
dataset |
{DATASET} |
Testovací sada, do které tento soubor přejde při rozdělení před trénováním. Další informace o rozdělení dat najdete tady. Možné hodnoty pro toto pole jsou Train a Test . |
Train |
regionOffset |
Pozice inkluzivního znaku začátku textu. | 0 |
|
regionLength |
Délka ohraničujícího rámečku z hlediska znaků UTF16. Trénování bere v úvahu pouze data v této oblasti. | 500 |
|
category |
Typ entity přidružené k zadanému rozsahu textu. | Entity1 |
|
offset |
Počáteční pozice pro text entity. | 25 |
|
length |
Délka entity z hlediska znaků UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
Řetězec určující kód jazyka pro dokument použitý v projektu. Pokud se jedná o vícejazyčný projekt, zvolte kód jazyka většiny dokumentů. Další informace o podporovaných kódech jazyků najdete v tématu Podpora jazyků. | en |
Pravidla pojmenování entit
- Předem připravené názvy entit jsou předdefinované. Musí být vyplněny předem připravenou komponentou a musí odpovídat názvu entity.
- Nové uživatelem definované entity (entity s naučenými komponentami nebo textem s popiskem) nemohou používat předem vytvořené názvy entit.
- Nové uživatelem definované entity není možné naplnit předem vytvořenými komponentami, protože předem vytvořené komponenty musí odpovídat názvům přidružených entit a v poli dokumentů jim nesmí být přiřazena žádná označená data.
Další kroky
- Data s popiskem můžete importovat přímo do projektu. Informace o importu projektu
- Další informace o označování dat najdete v článku s postupy .
- Po dokončení označování dat můžete model vytrénovat.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro