共用方式為


用於健康情況的自訂文字分析中已接受的資料格式

使用本文來瞭解如何將資料格式化,以匯入自訂文字分析以取得健康情況。

如果您嘗試將資料入用於健康醫療領域的自訂文字分析,則必須遵循特定格式。 如果您沒有資料可匯入,可以建立專案,並使用 Language Studio 來標記您的文件

您的標籤檔案應該採用 json 下列格式,才能在將標籤匯入專案中時使用。

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

答案 預留位置 範例
multilingual true 布林值,可讓您在資料集中具有多種語言的文件,而且當部署模型時,您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。 若要深入了解多語系支援,請參閱語言支援 true
projectName {PROJECT-NAME} 專案名稱 myproject
storageInputContainerName {CONTAINER-NAME} 容器名稱 mycontainer
entities 陣列,其中包含您在專案中擁有的所有實體類型。 這些是從文件擷取到其中的實體類型。
category 實體類型的名稱,可為新實體定義的使用者定義,或預先定義預先建置的實體。 如需詳細資訊,請參閱下面的實體命名規則。
compositionSetting {COMPOSITION-SETTING} 定義如何在實體中管理多個元件的規則。 選項為 combineComponentsseparateComponents combineComponents
list 陣列,其中包含您在專案中針對特定實體擁有的所有子清單。 您可以將清單新增至預先建置的實體或具有已學習元件的新實體。
sublists [] 包含子清單的陣列。 每個子清單都是索引鍵及其相關聯的值。 []
listKey One 在預測中對應回同義字清單的正規化值。 One
synonyms [] 包含所有同義字的陣列 同義字
language {LANGUAGE-CODE} 字串,指定子清單中的同義字語言代碼。 如果您的專案是多語系專案,而且您想要支援專案中所有語言的同義字清單,則必須明確地將同義字新增至每個語言。 若要進一步了解支援的語言代碼,請參閱語言支援 en
values "EntityNumberone", "FirstEntity" 逗號分隔字串的清單,將會完全比對這些字串以供擷取和對應至清單索引鍵。 "EntityNumberone", "FirstEntity"
prebuilts MedicationName 預先建置元件的名稱,填入預先建置的實體。 預先建置的實體 預設會自動載入您的專案,但您可以使用標籤檔案中的清單元件加以擴充。 MedicationName
documents 陣列,其中包含專案中的所有文件,以及每個文件內標記的實體清單。 []
location {DOCUMENT-NAME} 文件在儲存體容器中的位置。 因為所有文件都在容器的根目錄中,所以這應該是文件名稱。 doc1.txt
dataset {DATASET} 在定型之前分割時,此檔案要傳送至的測試集。 在這裡深入瞭解資料分割。 此欄位的可能值為 TrainTest Train
regionOffset 文字開頭的內含字元位置。 0
regionLength 周框方塊的長度 (以 UTF16 字元為單位)。 訓練只會考慮此區域中的資料。 500
category 與指定的文字範圍相關聯的實體類型。 Entity1
offset 實體文字的開始位置。 25
length 實體的長度 (以 UTF16 字元為單位)。 20
language {LANGUAGE-CODE} 字串,指定專案中所用文件的語言代碼。 如果您的專案是多語系專案,請選擇大部分文件的語言代碼。 若要進一步了解支援的語言代碼,請參閱語言支援 en

實體命名規則

  1. 預先建置的機構名稱 已預先定義。 它們必須填入預先建置的元件,而且必須符合機構名稱。
  2. 新的使用者定義實體 (具有已學習元件或標記文字的實體,) 無法使用預先建置的機構名稱。
  3. 新的使用者定義實體無法填入預先建置的元件,因為預先建置的元件必須符合其相關聯的機構名稱,而且在檔陣列中沒有指派任何已標記的資料。

後續步驟