Aracılığıyla paylaş


Sistem durumu için özel metin analizinde kabul edilen veri biçimleri

Verilerinizi sistem durumu için özel metin analizine aktarılacak şekilde biçimlendirme hakkında bilgi edinmek için bu makaleyi kullanın.

Verilerinizi sağlık için özel Metin Analizi içeri aktarmaya çalışıyorsanız, belirli bir biçimi izlemesi gerekir. İçeri aktaracak verileriniz yoksa projenizi oluşturabilir ve Language Studio'yu kullanarak belgelerinizi etiketleyebilirsiniz.

Etiketler dosyanız, etiketlerinizi projeye aktarırken kullanılacak şekilde aşağıdaki biçimde olmalıdır json .

{
	"projectFileVersion": "{API-VERSION}",
	"stringIndexType": "Utf16CodeUnit",
	"metadata": {
		"projectName": "{PROJECT-NAME}",
		"projectKind": "CustomHealthcare",
		"description": "Trying out custom Text Analytics for health",
		"language": "{LANGUAGE-CODE}",
		"multilingual": true,
		"storageInputContainerName": "{CONTAINER-NAME}",
		"settings": {}
	},
	"assets": {
		"projectKind": "CustomHealthcare",
		"entities": [
			{
				"category": "Entity1",
				"compositionSetting": "{COMPOSITION-SETTING}",
				"list": {
					"sublists": [
						{
							"listKey": "One",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"EntityNumberOne",
										"FirstEntity"
									]
								}
							]
						}
					]
				}
			},
			{
				"category": "Entity2"
			},
			{
				"category": "MedicationName",
				"list": {
					"sublists": [
						{
							"listKey": "research drugs",
							"synonyms": [
								{
									"language": "en",
									"values": [
										"rdrug a",
										"rdrug b"
									]
								}
							]

						}
					]
				}
				"prebuilts": "MedicationName"
			}
		],
		"documents": [
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 500,
						"labels": [
							{
								"category": "Entity1",
								"offset": 25,
								"length": 10
							},
							{
								"category": "Entity2",
								"offset": 120,
								"length": 8
							}
						]
					}
				]
			},
			{
				"location": "{DOCUMENT-NAME}",
				"language": "{LANGUAGE-CODE}",
				"dataset": "{DATASET}",
				"entities": [
					{
						"regionOffset": 0,
						"regionLength": 100,
						"labels": [
							{
								"category": "Entity2",
								"offset": 20,
								"length": 5
							}
						]
					}
				]
			}
		]
	}
}

Anahtar Yer tutucu Değer Örnek
multilingual true Veri kümenizde birden çok dilde belgenizin olmasını sağlayan boole değeridir ve modeliniz dağıtıldığında modeli desteklenen herhangi bir dilde sorgulayabilirsiniz (eğitim belgelerinize dahil olmak zorunda değildir). Çok dilli destek hakkında daha fazla bilgi edinmek için bkz. dil desteği. true
projectName {PROJECT-NAME} Proje adı myproject
storageInputContainerName {CONTAINER-NAME} Kapsayıcı adı mycontainer
entities Projede sahip olduğunuz tüm varlık türlerini içeren dizi. Bunlar, belgelerinizden içine ayıklanacak varlık türleridir.
category Yeni varlık tanımları için kullanıcı tanımlı veya önceden oluşturulmuş varlıklar için önceden tanımlanmış varlık türünün adı. Daha fazla bilgi için aşağıdaki varlık adlandırma kurallarına bakın.
compositionSetting {COMPOSITION-SETTING} Varlığınızdaki birden çok bileşenin nasıl yönetileceğini tanımlayan kural. Seçenekler veya separateComponentsşeklindedircombineComponents. combineComponents
list Belirli bir varlık için projede sahip olduğunuz tüm alt listeleri içeren dizi. Listeler önceden oluşturulmuş varlıklara veya öğrenilen bileşenlere sahip yeni varlıklara eklenebilir.
sublists [] Alt listeleri içeren dizi. Her alt liste bir anahtar ve ilişkili değerleridir. []
listKey One Tahminde eşleştirilmesi gereken eş anlamlılar listesi için normalleştirilmiş bir değer. One
synonyms [] Tüm eş anlamlıları içeren dizi Eşanlamlı
language {LANGUAGE-CODE} Alt listenizdeki eş anlamlı için dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse ve projenizdeki tüm diller için eş anlamlılar listenizi desteklemek istiyorsanız, eş anlamlılarınızı her dile açıkça eklemeniz gerekir. Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . en
values "EntityNumberone", "FirstEntity" Ayıklama için tam olarak eşleştirilecek ve liste anahtarıyla eşlenecek virgülle ayrılmış dizelerin listesi. "EntityNumberone", "FirstEntity"
prebuilts MedicationName Önceden oluşturulmuş varlığı dolduran önceden oluşturulmuş bileşenin adı. Önceden oluşturulmuş varlıklar varsayılan olarak projenize otomatik olarak yüklenir, ancak bunları etiket dosyanızdaki liste bileşenleriyle genişletebilirsiniz. MedicationName
documents Projenizdeki tüm belgeleri ve her belge içinde etiketlenmiş varlıkların listesini içeren dizi. []
location {DOCUMENT-NAME} Belgelerin depolama kapsayıcısı içindeki konumu. Tüm belgeler kapsayıcının kökünde olduğundan, belge adı bu olmalıdır. doc1.txt
dataset {DATASET} Eğitimden önce bölündüğünde bu dosyanın gittiği test kümesi. Veri bölme hakkında daha fazla bilgiyi burada bulabilirsiniz. Bu alanın olası değerleri ve TestşeklindedirTrain. Train
regionOffset Metnin başlangıcının kapsayıcı karakter konumu. 0
regionLength Sınırlayıcı kutunun UTF16 karakterleri cinsinden uzunluğu. Eğitim yalnızca bu bölgedeki verileri dikkate alır. 500
category Belirtilen metnin yayılmasıyla ilişkilendirilmiş varlık türü. Entity1
offset Varlık metninin başlangıç konumu. 25
length Varlığın UTF16 karakterleri cinsinden uzunluğu. 20
language {LANGUAGE-CODE} Projenizde kullanılan belgenin dil kodunu belirten dize. Projeniz çok dilli bir projeyse, belgelerin çoğunun dil kodunu seçin. Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . en

Varlık adlandırma kuralları

  1. Önceden oluşturulmuş varlık adları önceden tanımlanmıştır. Bunlar önceden oluşturulmuş bir bileşenle doldurulmalı ve varlık adıyla eşleşmelidir.
  2. Yeni kullanıcı tanımlı varlıklar (öğrenilen bileşenlere veya etiketli metne sahip varlıklar) önceden oluşturulmuş varlık adlarını kullanamaz.
  3. Yeni kullanıcı tanımlı varlıklar önceden oluşturulmuş bileşenlerle doldurulamaz çünkü önceden oluşturulmuş bileşenler ilişkili varlık adlarıyla eşleşmelidir ve belgeler dizisinde bunlara atanmış etiketli veri yoktur.

Sonraki adımlar