用於健康情況的自訂文字分析中已接受的資料格式
使用本文來瞭解如何將資料格式化,以匯入自訂文字分析以取得健康情況。
如果您嘗試將資料匯入用於健康醫療領域的自訂文字分析,則必須遵循特定格式。 如果您沒有資料可匯入,可以建立專案,並使用 Language Studio 來標記您的文件。
您的標籤檔案應該採用 json
下列格式,才能在將標籤匯入專案中時使用。
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
答案 | 預留位置 | 值 | 範例 |
---|---|---|---|
multilingual |
true |
布林值,可讓您在資料集中具有多種語言的文件,而且當部署模型時,您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。 若要深入了解多語系支援,請參閱語言支援。 | true |
projectName |
{PROJECT-NAME} |
專案名稱 | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
容器名稱 | mycontainer |
entities |
陣列,其中包含您在專案中擁有的所有實體類型。 這些是從文件擷取到其中的實體類型。 | ||
category |
實體類型的名稱,可為新實體定義的使用者定義,或預先定義預先建置的實體。 如需詳細資訊,請參閱下面的實體命名規則。 | ||
compositionSetting |
{COMPOSITION-SETTING} |
定義如何在實體中管理多個元件的規則。 選項為 combineComponents 或 separateComponents 。 |
combineComponents |
list |
陣列,其中包含您在專案中針對特定實體擁有的所有子清單。 您可以將清單新增至預先建置的實體或具有已學習元件的新實體。 | ||
sublists |
[] |
包含子清單的陣列。 每個子清單都是索引鍵及其相關聯的值。 | [] |
listKey |
One |
在預測中對應回同義字清單的正規化值。 | One |
synonyms |
[] |
包含所有同義字的陣列 | 同義字 |
language |
{LANGUAGE-CODE} |
字串,指定子清單中的同義字語言代碼。 如果您的專案是多語系專案,而且您想要支援專案中所有語言的同義字清單,則必須明確地將同義字新增至每個語言。 若要進一步了解支援的語言代碼,請參閱語言支援。 | en |
values |
"EntityNumberone" , "FirstEntity" |
逗號分隔字串的清單,將會完全比對這些字串以供擷取和對應至清單索引鍵。 | "EntityNumberone" , "FirstEntity" |
prebuilts |
MedicationName |
預先建置元件的名稱,填入預先建置的實體。 預先建置的實體 預設會自動載入您的專案,但您可以使用標籤檔案中的清單元件加以擴充。 | MedicationName |
documents |
陣列,其中包含專案中的所有文件,以及每個文件內標記的實體清單。 | [] | |
location |
{DOCUMENT-NAME} |
文件在儲存體容器中的位置。 因為所有文件都在容器的根目錄中,所以這應該是文件名稱。 | doc1.txt |
dataset |
{DATASET} |
在定型之前分割時,此檔案要傳送至的測試集。 在這裡深入瞭解資料分割。 此欄位的可能值為 Train 和 Test 。 |
Train |
regionOffset |
文字開頭的內含字元位置。 | 0 |
|
regionLength |
周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 | 500 |
|
category |
與指定的文字範圍相關聯的實體類型。 | Entity1 |
|
offset |
實體文字的開始位置。 | 25 |
|
length |
實體的長度 (以 UTF16 字元為單位)。 | 20 |
|
language |
{LANGUAGE-CODE} |
字串,指定專案中所用文件的語言代碼。 如果您的專案是多語系專案,請選擇大部分文件的語言代碼。 若要進一步了解支援的語言代碼,請參閱語言支援。 | en |
實體命名規則
- 預先建置的機構名稱 已預先定義。 它們必須填入預先建置的元件,而且必須符合機構名稱。
- 新的使用者定義實體 (具有已學習元件或標記文字的實體,) 無法使用預先建置的機構名稱。
- 新的使用者定義實體無法填入預先建置的元件,因為預先建置的元件必須符合其相關聯的機構名稱,而且在檔陣列中沒有指派任何已標記的資料。
後續步驟
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應