Format data NER khusus yang diterima
Jika Anda mencoba mengimpor data Anda ke NER kustom, data tersebut harus mengikuti format tertentu. Jika tidak memiliki data untuk diimpor, Anda dapat membuat proyek dan menggunakan Language Studio untuk melabeli dokumen.
Format file label
File Label Anda harus dalam format json
di bawah ini untuk digunakan dalam mengimpor label Anda ke dalam sebuah proyek.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
Tombol | Placeholder | Nilai | Contoh |
---|---|---|---|
multilingual |
true |
Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multi-bahasa. | true |
projectName |
{PROJECT-NAME} |
Nama proyek | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nama kontainer | mycontainer |
entities |
Array yang berisi semua jenis entitas yang Anda miliki dalam proyek. Ini adalah jenis entitas yang akan diekstraksi dari dokumen Anda. | ||
documents |
Array yang berisi semua dokumen dalam proyek Anda dan daftar entitas yang diberi label dalam setiap dokumen. | [] | |
location |
{DOCUMENT-NAME} |
Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, ini akan menjadi nama dokumen. | doc1.txt |
dataset |
{DATASET} |
Set pengujian yang akan digunakan file ini ketika dibagi sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah Train dan Test . |
Train |
regionOffset |
Posisi karakter inklusif dari awal teks. | 0 |
|
regionLength |
Panjang kotak pembatas dalam hal karakter UTF16. Pelatihan hanya mempertimbangkan data di wilayah ini. | 500 |
|
category |
Jenis entitas yang terkait dengan rentang teks yang ditentukan. | Entity1 |
|
offset |
Posisi awal untuk teks entitas. | 25 |
|
length |
Panjang entitas dalam hal karakter UTF16. | 20 |
|
language |
{LANGUAGE-CODE} |
String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multi-bahasa, pilih kode bahasa dari sebagian besar dokumen. Lihat Dukungan bahasa untuk informasi selengkapnya tentang kode bahasa yang didukung. | en-us |
Langkah berikutnya
- Anda dapat mengimpor data berlabel ke proyek Anda secara langsung. Pelajari cara mengimpor proyek
- Lihat artikel petunjuk informasi selengkapnya tentang memberi label pada data Anda. Setelah selesai melabeli data, Anda dapat melatih model Anda.