如果您嘗試將 資料匯入 自訂 NER,則必須遵循特定格式。 如果你沒有資料要匯入,你可以 建立專案 並使用 Microsoft Foundry 來標註文件。
標籤檔案格式
您的標籤檔案應該是 json 格式,以便用於將標籤匯入專案。
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| 鍵 | 預留位置 | 價值 | 範例 |
|---|---|---|---|
multilingual |
true |
布林值可讓您在資料集中包含多種語言的文件,並且在部署模型後,您可以使用任何支援的語言(不一定包含在訓練文件中)查詢模型。 若要深入了解多語系支援,請參閱語言支援。 | true |
projectName |
{PROJECT-NAME} |
專案名稱 | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
容器名稱 | mycontainer |
entities |
陣列,其中包含您在專案中擁有的所有實體類型。 從文件中擷取的實體類型。 | ||
documents |
陣列,其中包含專案中的所有文件,以及每個文件內標記的實體清單。 | [] | |
location |
{DOCUMENT-NAME} |
文件在儲存體容器中的位置。 由於所有文件都位於容器的根目錄中,因此此位置應該是文件名稱。 | doc1.txt |
dataset |
{DATASET} |
此檔案在定型前分割時要移至的測試集。 在這裡深入了解資料分割。 此欄位的可能值為 Train 和 Test。 |
Train |
regionOffset |
文字開頭的內含字元位置。 | 0 |
|
regionLength |
周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 | 500 |
|
category |
與指定的文字範圍相關聯的實體類型。 | Entity1 |
|
offset |
實體文字的開始位置。 | 25 |
|
length |
實體的長度 (以 UTF16 字元為單位)。 | 20 |
|
language |
{LANGUAGE-CODE} |
字串,指定專案中所用文件的語言代碼。 如果您的專案是多語言專案,請選擇大部分文件的語言代碼。 如需詳細資訊,請參閱語言支援 (部分機器翻譯)。 | en-us |