Bagikan melalui


Format data yang diterima dalam analitik teks kustom untuk kesehatan

Gunakan artikel ini untuk mempelajari tentang memformat data Anda untuk diimpor ke analitik teks kustom untuk kesehatan.

Jika Anda mencoba mengimpor data ke Text Analytics kustom untuk kesehatan, data harus mengikuti format tertentu. Jika Anda tidak memiliki data untuk diimpor, Anda dapat membuat proyek Anda dan menggunakan Language Studio untuk melabeli dokumen Anda.

File Label Anda harus dalam format di json bawah ini untuk digunakan saat mengimpor label Anda ke dalam proyek.

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Tombol Placeholder Nilai Contoh
multilingual true Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multi-bahasa. true
projectName {PROJECT-NAME} Nama proyek myproject
storageInputContainerName {CONTAINER-NAME} Nama kontainer mycontainer
entities Array yang berisi semua jenis entitas yang Anda miliki dalam proyek. Ini adalah jenis entitas yang akan diekstraksi dari dokumen Anda.
category Nama jenis entitas, yang dapat ditentukan pengguna untuk definisi entitas baru, atau ditentukan sebelumnya untuk entitas bawaan. Untuk informasi selengkapnya, lihat aturan penamaan entitas di bawah ini.
compositionSetting {COMPOSITION-SETTING} Aturan yang menentukan cara mengelola beberapa komponen di entitas Anda. Opsinya adalah combineComponents atau separateComponents. combineComponents
list Array yang berisi semua sublist yang Anda miliki dalam proyek untuk entitas tertentu. Daftar dapat ditambahkan ke entitas bawaan atau entitas baru dengan komponen yang dipelajari.
sublists [] Array yang berisi sublist. Setiap sublist adalah kunci dan nilai terkaitnya. []
listKey One Nilai yang dinormalisasi untuk daftar sinonim yang akan dipetakan kembali dalam prediksi. One
synonyms [] Array yang berisi semua sinonim sinonim
language {LANGUAGE-CODE} String yang menentukan kode bahasa untuk sinonim dalam sublist Anda. Jika proyek Anda adalah proyek multibahasa dan Anda ingin mendukung daftar sinonim untuk semua bahasa dalam proyek Anda, Anda harus secara eksplisit menambahkan sinonim Anda ke setiap bahasa. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung. en
values "EntityNumberone", "FirstEntity" Daftar string yang dipisahkan koma yang akan dicocokkan persis untuk ekstraksi dan petakan ke kunci daftar. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Nama komponen bawaan yang mengisi entitas bawaan. Entitas bawaan secara otomatis dimuat ke dalam proyek Anda secara default tetapi Anda dapat memperluasnya dengan komponen daftar dalam file label Anda. MedicationName
documents Array yang berisi semua dokumen dalam proyek Anda dan daftar entitas yang diberi label dalam setiap dokumen. []
location {DOCUMENT-NAME} Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, ini akan menjadi nama dokumen. doc1.txt
dataset {DATASET} Set pengujian tempat file ini masuk ketika dibagi sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah Train dan Test. Train
regionOffset Posisi karakter inklusif dari awal teks. 0
regionLength Panjang kotak pembatas dalam hal karakter UTF16. Pelatihan hanya mempertimbangkan data di wilayah ini. 500
category Jenis entitas yang terkait dengan rentang teks yang ditentukan. Entity1
offset Posisi awal untuk teks entitas. 25
length Panjang entitas dalam hal karakter UTF16. 20
language {LANGUAGE-CODE} String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multi-bahasa, pilih kode bahasa dari sebagian besar dokumen. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung. en

Aturan penamaan entitas

  1. Nama entitas bawaan telah ditentukan sebelumnya. Mereka harus diisi dengan komponen bawaan dan harus cocok dengan nama entitas.
  2. Entitas yang ditentukan pengguna baru (entitas dengan komponen yang dipelajari atau teks berlabel) tidak dapat menggunakan nama entitas bawaan.
  3. Entitas yang ditentukan pengguna baru tidak dapat diisi dengan komponen bawaan karena komponen bawaan harus cocok dengan nama entitas terkait dan tidak memiliki data berlabel yang ditetapkan untuk mereka dalam array dokumen.

Langkah berikutnya