Sistem durumu için özel metin analizinde kabul edilen veri biçimleri
Verilerinizi sistem durumu için özel metin analizine aktarılacak şekilde biçimlendirme hakkında bilgi edinmek için bu makaleyi kullanın.
Verilerinizi sağlık için özel Metin Analizi içeri aktarmaya çalışıyorsanız, belirli bir biçimi izlemesi gerekir. İçeri aktaracak verileriniz yoksa projenizi oluşturabilir ve Language Studio'yu kullanarak belgelerinizi etiketleyebilirsiniz.
Etiketler dosyanız, etiketlerinizi projeye aktarırken kullanılacak şekilde aşağıdaki biçimde olmalıdır json
.
{
"projectFileVersion": "{API-VERSION}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectName": "{PROJECT-NAME}",
"projectKind": "CustomHealthcare",
"description": "Trying out custom Text Analytics for health",
"language": "{LANGUAGE-CODE}",
"multilingual": true,
"storageInputContainerName": "{CONTAINER-NAME}",
"settings": {}
},
"assets": {
"projectKind": "CustomHealthcare",
"entities": [
{
"category": "Entity1",
"compositionSetting": "{COMPOSITION-SETTING}",
"list": {
"sublists": [
{
"listKey": "One",
"synonyms": [
{
"language": "en",
"values": [
"EntityNumberOne",
"FirstEntity"
]
}
]
}
]
}
},
{
"category": "Entity2"
},
{
"category": "MedicationName",
"list": {
"sublists": [
{
"listKey": "research drugs",
"synonyms": [
{
"language": "en",
"values": [
"rdrug a",
"rdrug b"
]
}
]
}
]
}
"prebuilts": "MedicationName"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Anahtar | Yer tutucu | Değer | Örnek |
---|---|---|---|
multilingual |
true |
Veri kümenizde birden çok dilde belgenizin olmasını sağlayan boole değeridir ve modeliniz dağıtıldığında modeli desteklenen herhangi bir dilde sorgulayabilirsiniz (eğitim belgelerinize dahil olmak zorunda değildir). Çok dilli destek hakkında daha fazla bilgi edinmek için bkz. dil desteği. | true |
projectName |
{PROJECT-NAME} |
Proje adı | myproject |
storageInputContainerName |
{CONTAINER-NAME} |
Kapsayıcı adı | mycontainer |
entities |
Projede sahip olduğunuz tüm varlık türlerini içeren dizi. Bunlar, belgelerinizden içine ayıklanacak varlık türleridir. | ||
category |
Yeni varlık tanımları için kullanıcı tanımlı veya önceden oluşturulmuş varlıklar için önceden tanımlanmış varlık türünün adı. Daha fazla bilgi için aşağıdaki varlık adlandırma kurallarına bakın. | ||
compositionSetting |
{COMPOSITION-SETTING} |
Varlığınızdaki birden çok bileşenin nasıl yönetileceğini tanımlayan kural. Seçenekler veya separateComponents şeklindedircombineComponents . |
combineComponents |
list |
Belirli bir varlık için projede sahip olduğunuz tüm alt listeleri içeren dizi. Listeler önceden oluşturulmuş varlıklara veya öğrenilen bileşenlere sahip yeni varlıklara eklenebilir. | ||
sublists |
[] |
Alt listeleri içeren dizi. Her alt liste bir anahtar ve ilişkili değerleridir. | [] |
listKey |
One |
Tahminde eşleştirilmesi gereken eş anlamlılar listesi için normalleştirilmiş bir değer. | One |
synonyms |
[] |
Tüm eş anlamlıları içeren dizi | Eşanlamlı |
language |
{LANGUAGE-CODE} |
Alt listenizdeki eş anlamlı için dil kodunu belirten bir dize. Projeniz çok dilli bir projeyse ve projenizdeki tüm diller için eş anlamlılar listenizi desteklemek istiyorsanız, eş anlamlılarınızı her dile açıkça eklemeniz gerekir. Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . | en |
values |
"EntityNumberone" , "FirstEntity" |
Ayıklama için tam olarak eşleştirilecek ve liste anahtarıyla eşlenecek virgülle ayrılmış dizelerin listesi. | "EntityNumberone" , "FirstEntity" |
prebuilts |
MedicationName |
Önceden oluşturulmuş varlığı dolduran önceden oluşturulmuş bileşenin adı. Önceden oluşturulmuş varlıklar varsayılan olarak projenize otomatik olarak yüklenir, ancak bunları etiket dosyanızdaki liste bileşenleriyle genişletebilirsiniz. | MedicationName |
documents |
Projenizdeki tüm belgeleri ve her belge içinde etiketlenmiş varlıkların listesini içeren dizi. | [] | |
location |
{DOCUMENT-NAME} |
Belgelerin depolama kapsayıcısı içindeki konumu. Tüm belgeler kapsayıcının kökünde olduğundan, belge adı bu olmalıdır. | doc1.txt |
dataset |
{DATASET} |
Eğitimden önce bölündüğünde bu dosyanın gittiği test kümesi. Veri bölme hakkında daha fazla bilgiyi burada bulabilirsiniz. Bu alanın olası değerleri ve Test şeklindedirTrain . |
Train |
regionOffset |
Metnin başlangıcının kapsayıcı karakter konumu. | 0 |
|
regionLength |
Sınırlayıcı kutunun UTF16 karakterleri cinsinden uzunluğu. Eğitim yalnızca bu bölgedeki verileri dikkate alır. | 500 |
|
category |
Belirtilen metnin yayılmasıyla ilişkilendirilmiş varlık türü. | Entity1 |
|
offset |
Varlık metninin başlangıç konumu. | 25 |
|
length |
Varlığın UTF16 karakterleri cinsinden uzunluğu. | 20 |
|
language |
{LANGUAGE-CODE} |
Projenizde kullanılan belgenin dil kodunu belirten dize. Projeniz çok dilli bir projeyse, belgelerin çoğunun dil kodunu seçin. Desteklenen dil kodları hakkında daha fazla bilgi için bkz. Dil desteği . | en |
Varlık adlandırma kuralları
- Önceden oluşturulmuş varlık adları önceden tanımlanmıştır. Bunlar önceden oluşturulmuş bir bileşenle doldurulmalı ve varlık adıyla eşleşmelidir.
- Yeni kullanıcı tanımlı varlıklar (öğrenilen bileşenlere veya etiketli metne sahip varlıklar) önceden oluşturulmuş varlık adlarını kullanamaz.
- Yeni kullanıcı tanımlı varlıklar önceden oluşturulmuş bileşenlerle doldurulamaz çünkü önceden oluşturulmuş bileşenler ilişkili varlık adlarıyla eşleşmelidir ve belgeler dizisinde bunlara atanmış etiketli veri yoktur.
Sonraki adımlar
- Etiketlenmiş verilerinizi doğrudan projenize aktarabilirsiniz. Projeyi içeri aktarmayı öğrenin
- Verilerinizi etiketleme hakkında daha fazla bilgi için nasıl yapılır makalesine bakın.
- Verilerinizi etiketlemeyi bitirdiğinizde modelinizi eğitebilirsiniz.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin