Memberi label data teks untuk melatih model Anda
Sebelum melatih model, Anda perlu memberi label dokumen dengan kelas yang ingin Anda kategorikan ke dalamnya. Pelabelan data adalah langkah penting dalam siklus hidup pengembangan; dalam langkah ini Anda dapat membuat kelas untuk mengategorikan data ke dalamnya dan memberi label dokumen Anda dengan kelas-kelas ini. Data ini akan digunakan pada langkah berikutnya saat melatih model Anda sehingga model Anda dapat belajar dari data berlabel. Jika Anda sudah memiliki data berlabel, Anda dapat langsung mengimpornya ke proyek tetapi Anda perlu memastikan bahwa data Anda mengikuti format data yang diterima.
Sebelum membuat model klasifikasi teks kustom, Anda harus melabeli data terlebih dahulu. Jika data Anda belum diberi label, Anda dapat melabelinya di Language Studio. Data berlabel menginformasikan model bagaimana menafsirkan teks, dan digunakan untuk pelatihan dan evaluasi.
Prasyarat
Sebelum Anda melabeli data, Anda perlu:
- Proyek yang berhasil dibuat dengan akun penyimpanan blob Azure yang dikonfigurasi,
- Dokumen yang berisi data teks yang telah diunggah ke akun penyimpanan Anda.
Lihat siklus hidup pengembangan proyek untuk informasi selengkapnya.
Panduan pelabelan data
Setelah menyiapkan data Anda, merancang skema dan membuat proyek, Anda harus melabeli data Anda. Pelabelan data Anda penting sehingga model Anda mengetahui dokumen mana yang akan dikaitkan dengan kelas yang Anda butuhkan. Saat Anda memberi label data di Language Studio (atau mengimpor data berlabel), label ini akan disimpan dalam file JSON di kontainer penyimpanan yang sudah Anda sambungkan ke proyek ini.
Saat Anda melabeli data Anda, ingatlah:
Secara umum, lebih banyak data berlabel mengarah ke hasil yang lebih baik, asalkan data diberi label secara akurat.
Tidak ada jumlah label tetap yang dapat menjamin model Anda akan melakukan yang terbaik. Performa model pada kemungkinan ambiguitas dalam skema Anda, dan kualitas data berlabel Anda. Namun, kami merekomendasikan 50 dokumen berlabel per kelas.
Memberi label pada data Anda
Gunakan langkah-langkah berikut untuk memberi label pada data Anda:
Buka halaman proyek Anda di Language Studio.
Dari menu samping, pilih Beri label pada data. Anda dapat menemukan daftar semua dokumen di kontainer penyimpanan Anda. Lihat gambar di bawah.
Tip
Anda dapat menggunakan filter di menu atas untuk melihat file yang tidak berlabel sehingga Anda dapat mulai memberi label. Anda juga dapat menggunakan filter untuk melihat dokumen yang diberi label dengan kelas tertentu.
Ubah ke tampilan file tunggal dari sisi kiri di menu atas atau pilih file tertentu untuk memulai pelabelan. Anda dapat menemukan daftar semua file
.txt
yang tersedia di proyek Anda di sebelah kiri. Anda dapat menggunakan tombol Kembali dan Berikutnya dari bagian bawah halaman untuk menavigasikan dokumen Anda.Catatan
Jika Anda mengaktifkan beberapa bahasa untuk proyek, Anda akan menemukan drop-down Bahasa di menu atas, yang memungkinkan Anda memilih bahasa setiap dokumen.
Di panel sisi kanan, Tambahkan kelas ke proyek Anda sehingga Anda bisa mulai memberi label data Anda dengannya.
Mulai pelabelan file Anda.
Klasifikasi multi label: file Anda dapat diberi label dengan beberapa kelas, Anda dapat melakukannya dengan mencentang semua kotak centang yang berlaku di sebelah kelas yang ingin Anda berikan label di file ini.
Anda juga dapat menggunakan fitur pelabelan otomatis untuk memastikan pelabelan lengkap.
Di panel sisi kanan di bawah pivot Label, Anda dapat menemukan semua kelas dalam proyek Anda dan jumlah instans berlabel per masing-masing.
Di bagian bawah panel sisi kanan Anda bisa menambahkan file saat ini yang Anda lihat ke set pelatihan atau set pengujian. Secara default, semua dokumen ditambahkan ke set pelatihan Anda. Pelajari selengkapnya tentang set pelatihan dan pengujian dan bagaimana mereka digunakan untuk pelatihan dan evaluasi model.
Tip
Jika Anda berencana menggunakan pemisahan data Otomatis, gunakan opsi default untuk menetapkan semua dokumen ke dalam set pelatihan Anda.
Di bawah pivot Distribusi, Anda dapat melihat distribusi di seluruh set pelatihan dan pengujian. Anda memiliki dua opsi untuk melihat:
- Total instans tempat Anda dapat melihat jumlah semua instans berlabel dari kelas tertentu.
- Dokumen dengan setidaknya satu label di mana setiap dokumen dihitung jika berisi setidaknya satu instans berlabel dari kelas ini.
Sementara Anda memberi label, perubahan Anda akan disinkronkan secara berkala, jika belum disimpan, Anda akan menemukan peringatan di bagian atas halaman Anda. Jika Anda ingin menyimpan secara manual, pilih tombol Simpan label di bagian bawah halaman.
Hapus label
Jika Anda ingin menghapus label, hapus centang tombol di samping kelas.
Menghapus atau kelas
Untuk menghapus kelas, pilih ikon hapus di samping kelas yang ingin Anda hapus. Menghapus kelas akan menghapus semua instans berlabelnya dari himpunan data Anda.
Langkah berikutnya
Setelah Anda memberi label pada data, Anda dapat mulai melatih model yang akan belajar berdasarkan data Anda.