如果您嘗試將資料匯入自訂文字分類,則必須遵循特定格式。 如果你沒有資料要匯入,你可以 建立專案 並使用 Microsoft Foundry 來 標註文件。
標籤檔案格式
你的 Labels 檔案應該是 json 格式,以便你能將標籤匯 入 專案。
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
}
| Key | 預留位置 | 值 | 範例 |
|---|---|---|---|
| 多語系 | true |
布林值,可讓您在資料集中具有多種語言的文件,而且當部署模型時,您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。 若要深入了解多語系支援,請參閱語言支援。 | true |
| projectName | {PROJECT-NAME} |
專案名稱 | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
容器名稱 | mycontainer |
| 類別 | [] | 陣列,其中包含您在專案中擁有的所有類別。 | [] |
| documents | [] | 陣列,其中包含專案中的所有文件,以及此文件標記的類別。 | [] |
| 位置 | {DOCUMENT-NAME} |
文件在儲存體容器中的位置。 因為所有文件都在容器的根目錄中,所以此值應該是文件名稱。 | doc1.txt |
| 資料集 | {DATASET} |
此檔案在定型前分割時要移至的測試集。 請參閱 如何訓練模型。 此欄位的可能值為 Train 和 Test。 |
Train |