Format data yang diterima
Jika Anda mencoba mengimpor data ke dalam klasifikasi teks kustom, data tersebut harus mengikuti format tertentu. Jika Anda tidak memiliki data untuk diimpor, Anda dapat membuat proyek dan menggunakan Language Studio untuk memberi label dokumen Anda.
Format file label
File Label Anda harus dalam format json
di bawah ini. Ini akan memungkinkan Anda mengimpor label Anda ke dalam proyek.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomMultiLabelClassification",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us"
},
"assets": {
"projectKind": "CustomMultiLabelClassification",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"classes": [
{
"category": "Class1"
},
{
"category": "Class2"
}
]
}
]
}
Kunci | Tempat penampung | Nilai | Contoh |
---|---|---|---|
multilingual | true |
Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda). Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multibahasa. | true |
projectName | {PROJECT-NAME} |
Nama proyek | myproject |
storageInputContainerName | {CONTAINER-NAME} |
Nama kontainer | mycontainer |
kelas | [] | Array yang berisi semua kelas yang Anda miliki dalam proyek. Ini adalah kelas yang ingin Anda klasifikasikan dokumen Anda. | [] |
dokumen | [] | Array yang berisi semua dokumen dalam proyek Anda dan kelas berlabel untuk dokumen ini. | [] |
lokasi | {DOCUMENT-NAME} |
Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, nilai ini harus menjadi nama dokumen. | doc1.txt |
dataset | {DATASET} |
Set pengujian yang akan digunakan file ini ketika dibagi sebelum pelatihan. Lihat Cara melatih model untuk informasi selengkapnya. Nilai yang mungkin untuk bidang ini adalah Train dan Test . |
Train |
Langkah berikutnya
- Anda dapat mengimpor data berlabel ke proyek Anda secara langsung. Lihat Cara membuat proyek untuk mempelajari selengkapnya tentang mengimpor proyek.
- Lihat artikel petunjuk informasi selengkapnya tentang memberi label pada data Anda. Setelah selesai melabeli data, Anda dapat melatih model Anda.