Verilerinizi etiketleme
Verilerinizin doğru şekilde etiketlenmesi veya etiketlenmesi, özel varlık ayıklama modeli oluşturma işleminin önemli bir parçasıdır. Etiketler, modeli eğitmek için kullanılan metindeki belirli varlıkların örneklerini tanımlar. Odaklanmak için üç nokta vardır:
- Tutarlılık - Eğitim için verilerinizi tüm dosyalarda aynı şekilde etiketle. Tutarlılık, modelinizin çakışan girişler olmadan öğrenmesine olanak tanır.
- Precision - Varlıklarınızı gereksiz ek sözcükler olmadan tutarlı bir şekilde etiketle. Duyarlık, ayıklanan varlığınıza yalnızca doğru verilerin eklenmesini sağlar.
- Eksiksizlik - Verilerinizi tamamen etiketleyip hiçbir varlığı kaçırmayın. Eksiksizlik, modelinizin mevcut varlıkları her zaman tanımasını sağlar.
Verilerinizi etiketleme
Language Studio, verilerinizi etiketlemek için en doğru yöntemdir. Language Studio dosyayı görmenize, varlığınızın başlangıcını ve sonunu seçmenize ve hangi varlığın olduğunu belirtmenize olanak tanır.
Tanımladığınız her etiket, veri kümenizle birlikte depolama hesabınızda bulunan bir dosyaya, otomatik olarak oluşturulan bir JSON dosyasına kaydedilir. Bu dosya daha sonra model tarafından özel varlıkları ayıklamayı öğrenmek için kullanılır. Projenizi oluştururken bu dosyayı sağlamak mümkündür (örneğin, aynı etiketleri farklı bir projeden içeri aktarıyorsanız), ancak kabul edilen özel NER veri biçimlerinde olması gerekir. Örneğin:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Alan | Açıklama |
---|---|
documents |
Etiketli belge dizisi |
location |
Projeye bağlı kapsayıcı içindeki dosyanın yolu |
language |
Dosyanın dili |
entities |
Geçerli belgedeki mevcut varlıkların dizisi |
regionOffset |
Metnin başlangıcı için kapsayıcı karakter konumu |
regionLength |
Eğitimde kullanılan verilerin karakterlerinin uzunluğu |
category |
Ayıklanan varlığın adı |
labels |
Dosyalarda etiketlenmiş varlık dizisi |
offset |
Varlığın başlangıcı için kapsayıcı karakter konumu |
length |
Varlığın karakter uzunluğu |
dataset |
Dosyanın atandığı veri kümesi |