用於健康情況的自訂文字分析中已接受的資料格式

發行項
12/19/2023

使用本文來瞭解如何將資料格式化，以匯入自訂文字分析以取得健康情況。

如果您嘗試將資料匯入用於健康醫療領域的自訂文字分析，則必須遵循特定格式。如果您沒有資料可匯入，可以建立專案，並使用 Language Studio 來標記您的文件。

您的標籤檔案應該採用 json 下列格式，才能在將標籤匯入專案中時使用。

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

答案	預留位置	值	範例
`multilingual`	`true`	布林值，可讓您在資料集中具有多種語言的文件，而且當部署模型時，您可以使用任何支援的語言 (不一定包含在定型文件中) 查詢模型。若要深入了解多語系支援，請參閱語言支援。	`true`
`projectName`	`{PROJECT-NAME}`	專案名稱	`myproject`
`storageInputContainerName`	`{CONTAINER-NAME}`	容器名稱	`mycontainer`
`entities`		陣列，其中包含您在專案中擁有的所有實體類型。這些是從文件擷取到其中的實體類型。
`category`		實體類型的名稱，可為新實體定義的使用者定義，或預先定義預先建置的實體。如需詳細資訊，請參閱下面的實體命名規則。
`compositionSetting`	`{COMPOSITION-SETTING}`	定義如何在實體中管理多個元件的規則。選項為 `combineComponents` 或 `separateComponents`。	`combineComponents`
`list`		陣列，其中包含您在專案中針對特定實體擁有的所有子清單。您可以將清單新增至預先建置的實體或具有已學習元件的新實體。
`sublists`	`[]`	包含子清單的陣列。每個子清單都是索引鍵及其相關聯的值。	`[]`
`listKey`	`One`	在預測中對應回同義字清單的正規化值。	`One`
`synonyms`	`[]`	包含所有同義字的陣列	同義字
`language`	`{LANGUAGE-CODE}`	字串，指定子清單中的同義字語言代碼。如果您的專案是多語系專案，而且您想要支援專案中所有語言的同義字清單，則必須明確地將同義字新增至每個語言。若要進一步了解支援的語言代碼，請參閱語言支援。	`en`
`values`	`"EntityNumberone"`, `"FirstEntity"`	逗號分隔字串的清單，將會完全比對這些字串以供擷取和對應至清單索引鍵。	`"EntityNumberone"`, `"FirstEntity"`
`prebuilts`	`MedicationName`	預先建置元件的名稱，填入預先建置的實體。預先建置的實體預設會自動載入您的專案，但您可以使用標籤檔案中的清單元件加以擴充。	`MedicationName`
`documents`		陣列，其中包含專案中的所有文件，以及每個文件內標記的實體清單。	[]
`location`	`{DOCUMENT-NAME}`	文件在儲存體容器中的位置。因為所有文件都在容器的根目錄中，所以這應該是文件名稱。	`doc1.txt`
`dataset`	`{DATASET}`	在定型之前分割時，此檔案要傳送至的測試集。在這裡深入瞭解資料分割。此欄位的可能值為 `Train` 和 `Test`。	`Train`
`regionOffset`		文字開頭的內含字元位置。	`0`
`regionLength`		周框方塊的長度 (以 UTF16 字元為單位)。訓練只會考慮此區域中的資料。	`500`
`category`		與指定的文字範圍相關聯的實體類型。	`Entity1`
`offset`		實體文字的開始位置。	`25`
`length`		實體的長度 (以 UTF16 字元為單位)。	`20`
`language`	`{LANGUAGE-CODE}`	字串，指定專案中所用文件的語言代碼。如果您的專案是多語系專案，請選擇大部分文件的語言代碼。若要進一步了解支援的語言代碼，請參閱語言支援。	`en`

實體命名規則

預先建置的機構名稱已預先定義。它們必須填入預先建置的元件，而且必須符合機構名稱。
新的使用者定義實體 (具有已學習元件或標記文字的實體，) 無法使用預先建置的機構名稱。
新的使用者定義實體無法填入預先建置的元件，因為預先建置的元件必須符合其相關聯的機構名稱，而且在檔陣列中沒有指派任何已標記的資料。

後續步驟

您可以將標記的資料直接匯入專案中。了解如何匯入專案
請參閱操作說明文章，以取得有關標記資料的詳細資訊。
標記資料完成後，即可開始定型您的模型。

共用方式為

用於健康情況的自訂文字分析中已接受的資料格式

實體命名規則

後續步驟

意見反應

意見反應

其他資源