Formáty přijatých dat
Pokud se pokoušíte importovat data do vlastní klasifikace textu, musí být v určitém formátu. Pokud nemáte data k importu, můžete vytvořit projekt a použít Language Studio k označení dokumentů.
Formát souboru popisků
Váš soubor Labels by měl být ve json
formátu níže. To vám umožní importovat popisky do projektu.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
Klíč | Zástupný symbol | Hodnota | Příklad |
---|---|---|---|
Vícejazyčné | true |
Logická hodnota, která umožňuje mít v datové sadě dokumenty v několika jazycích, a když je model nasazený, můžete se na model dotazovat v libovolném podporovaném jazyce (nemusí být nutně součástí trénovacích dokumentů). Další informace o podpoře více jazyků najdete v tématu Podpora jazyků . | true |
projectName | {PROJECT-NAME} |
Název projektu | Myproject |
storageInputContainerName | {CONTAINER-NAME} |
Název kontejneru | mycontainer |
Třídy | [] | Pole obsahující všechny třídy, které máte v projektu. Toto jsou třídy, do které chcete dokumenty klasifikovat. | [] |
V dokumentech | [] | Pole obsahující všechny dokumenty v projektu a třídy označené pro tento dokument. | [] |
location | {DOCUMENT-NAME} |
Umístění dokumentů v kontejneru úložiště. Vzhledem k tomu, že všechny dokumenty jsou v kořenovém adresáři kontejneru, měla by tato hodnota být název dokumentu. | doc1.txt |
Dataset | {DATASET} |
Testovací sada, do které tento soubor přejde při rozdělení před trénováním. Další informace najdete v tématu Postup trénování modelu . Možné hodnoty pro toto pole jsou Train a Test . |
Train |
Další kroky
- Data s popiskem můžete importovat přímo do projektu. Další informace o importu projektů najdete v tématu Vytvoření projektu .
- Další informace o označování dat najdete v článku s postupy . Po dokončení označování dat můžete model vytrénovat.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro