Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Jika Anda mencoba mengimpor data ke NER kustom, data harus mengikuti format tertentu. Jika Anda tidak memiliki data untuk diimpor, Anda bisa membuat proyek dan menggunakan Microsoft Foundry untuk memberi label dokumen Anda.
Format berkas label
File Label Anda harus dalam json format untuk digunakan dalam mengimpor label Anda ke dalam proyek.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Tombol | Placeholder | Nilai | Contoh |
|---|---|---|---|
multilingual |
true |
Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multi-bahasa. | true |
projectName |
{PROJECT-NAME} |
Nama proyek | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
Nama kontainer | mycontainer |
entities |
Array yang berisi semua jenis entitas yang Anda miliki dalam proyek. Jenis entitas yang diekstrak dari dokumen Anda. | ||
documents |
Array yang berisi semua dokumen dalam proyek Anda dan daftar entitas yang diberi label dalam setiap dokumen. | [] | |
location |
{DOCUMENT-NAME} |
Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, lokasi ini harus menjadi nama dokumen. | doc1.txt |
dataset |
{DATASET} |
Set pengujian tempat file ini masuk ketika dibagi sebelum pelatihan. Pelajari selengkapnya tentang pemisahan data di sini. Nilai yang mungkin untuk bidang ini adalah Train dan Test. |
Train |
regionOffset |
Posisi karakter inklusif dari awal teks. | 0 |
|
regionLength |
Panjang kotak pembatas dalam satuan karakter UTF 16. Pelatihan hanya mempertimbangkan data di wilayah ini. | 500 |
|
category |
Jenis entitas yang terkait dengan rentang teks yang ditentukan. | Entity1 |
|
offset |
Posisi awal untuk teks entitas. | 25 |
|
length |
Panjang entitas menurut jumlah karakter UTF-16. | 20 |
|
language |
{LANGUAGE-CODE} |
String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa untuk sebagian besar dokumen. Untuk informasi selengkapnya, lihatDukungan bahasa. | en-us |
Langkah berikutnya
- Anda dapat mengimpor data berlabel ke proyek Anda secara langsung. Pelajari cara mengimpor proyek
- Lihat artikel petunjuk informasi selengkapnya tentang memberi label pada data Anda. Setelah selesai melabeli data, Anda dapat melatih model Anda.