Memberi label pada data Anda
Pelabelan, atau pemberian tag, data Anda dengan benar adalah bagian penting dari proses untuk membuat model ekstraksi entitas kustom. Label mengidentifikasi contoh entitas tertentu dalam teks yang digunakan untuk melatih model. Tiga hal yang perlu difokuskan adalah:
- Konsistensi - Beri label data Anda dengan cara yang sama di semua file untuk pelatihan. Konsistensi memungkinkan model Anda untuk belajar tanpa input yang bertentangan.
- Presisi - Beri label entitas Anda secara konsisten, tanpa kata tambahan yang tidak perlu. Presisi memastikan hanya data yang tepat yang disertakan dalam entitas Anda yang diekstraksi.
- Kelengkapan - Beri label data Anda sepenuhnya, dan jangan lewatkan entitas apa pun. Kelengkapan membantu model Anda selalu mengenali entitas yang ada.
Cara memberi label data Anda
Language Studio adalah metode paling sederhana untuk melabeli data Anda. Language Studio memungkinkan Anda melihat file, memilih awal dan akhir entitas Anda, dan menentukan entitas mana itu.
Setiap label yang Anda identifikasi disimpan ke dalam file yang berada di akun penyimpanan Anda dengan himpunan data Anda, dalam file JSON yang dibuat secara otomatis. File ini kemudian digunakan oleh model untuk mempelajari cara mengekstrak entitas kustom. Dimungkinkan untuk menyediakan file ini saat membuat proyek Anda (jika Anda mengimpor label yang sama dari proyek yang berbeda, misalnya) namun harus dalam format data NER kustom yang Diterima. Contohnya:
{
"projectFileVersion": "{DATE}",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Bidang | Deskripsi |
|---|---|
documents |
Array dokumen berlabel |
location |
Jalur ke file dalam kontainer yang tersambung ke proyek |
language |
Bahasa berkas |
entities |
Array entitas yang ada dalam dokumen ini |
regionOffset |
Posisi karakter inklusif untuk awal teks |
regionLength |
Panjang karakter data yang digunakan dalam pelatihan |
category |
Nama entitas yang akan diekstrak |
labels |
Sebuah array entitas yang diberi label dalam berkas-berkas |
offset |
Posisi karakter inklusif untuk awal entitas |
length |
Panjang karakter entitas |
dataset |
Pada himpunan data mana file ditetapkan |