Melabeli data teks untuk melatih model Anda

2025-06-30

Sebelum melatih model, Anda perlu memberi label dokumen dengan kelas yang ingin Anda kategorikan. Pelabelan data adalah langkah penting dalam siklus hidup pengembangan; dalam langkah ini Anda dapat membuat kelas untuk mengategorikan data ke dalamnya dan memberi label dokumen Anda dengan kelas-kelas ini. Data ini akan digunakan pada langkah berikutnya saat melatih model Anda sehingga model Anda dapat belajar dari data berlabel. Jika Anda sudah memberi label data, Anda dapat langsung mengimpornya ke proyek Tetapi Anda perlu memastikan bahwa data Anda mengikuti format data yang diterima.

Sebelum membuat model klasifikasi teks kustom, Anda harus melabeli data terlebih dahulu. Jika data Anda belum diberi label, Anda dapat melabelinya di Language Studio. Data berlabel menginformasikan model bagaimana menafsirkan teks, dan digunakan untuk pelatihan dan evaluasi.

Prasyarat

Sebelum Anda melabeli data, Anda perlu:

Proyek yang berhasil dibuat dengan akun penyimpanan blob Azure yang dikonfigurasi,
Dokumen yang berisi data teks yang diunggah di akun penyimpanan Anda.

Lihat siklus hidup pengembangan proyek untuk informasi selengkapnya.

Panduan pelabelan data

Setelah menyiapkan data Anda, merancang skema dan membuat proyek, Anda harus melabeli data Anda. Pelabelan data Anda penting sehingga model Anda mengetahui dokumen mana yang akan dikaitkan dengan kelas yang Anda butuhkan. Saat Anda memberi label data di Language Studio (atau mengimpor data berlabel), label ini disimpan dalam file JSON di kontainer penyimpanan yang telah Anda sambungkan ke proyek ini.

Saat Anda melabeli data Anda, ingatlah:

Secara umum, lebih banyak data berlabel mengarah ke hasil yang lebih baik, asalkan data diberi label secara akurat.
Tidak ada jumlah label tetap yang dapat menjamin model Anda berkinerja terbaik. Performa model pada kemungkinan ambiguitas dalam skema Anda, dan kualitas data berlabel Anda. Namun, kami merekomendasikan 50 dokumen berlabel per kelas.

Memberi label pada data Anda

Gunakan langkah-langkah berikut untuk memberi label pada data Anda:

Buka halaman proyek Anda di Language Studio.
Dari menu samping, pilih Beri label pada data. Anda dapat menemukan daftar semua dokumen di kontainer penyimpanan Anda. Lihat gambar di bawah.

Tips

Anda dapat menggunakan filter di menu atas untuk melihat file yang tidak berlabel sehingga Anda dapat mulai memberi label. Anda juga dapat menggunakan filter untuk melihat dokumen yang diberi label dengan kelas tertentu.
Ubah ke tampilan file tunggal dari sisi kiri di menu atas atau pilih file tertentu untuk memulai pelabelan. Anda dapat menemukan daftar semua file .txt yang tersedia di proyek Anda di sebelah kiri. Anda dapat menggunakan tombol Kembali dan Berikutnya dari bagian bawah halaman untuk menavigasikan dokumen Anda.

Catatan

Jika Anda mengaktifkan beberapa bahasa untuk proyek, Anda akan menemukan drop-down Bahasa di menu atas, yang memungkinkan Anda memilih bahasa setiap dokumen.
Di panel sisi kanan, Tambahkan kelas ke proyek Anda sehingga Anda bisa mulai memberi label data Anda dengannya.
Mulai pelabelan file Anda.
- Klasifikasi multi-label
- Klasifikasi Label Tunggal
Klasifikasi multi label: file Anda dapat diberi label dengan beberapa kelas. Anda dapat melakukannya dengan memilih semua kotak centang yang berlaku di samping kelas yang ingin Anda beri label dokumen ini.

Klasifikasi label tunggal: file hanya dapat diberi label dengan satu kelas, Anda dapat melakukannya dengan memilih salah satu tombol di sebelah kelas yang ingin Anda berikan label di dokumen ini.
Anda juga dapat menggunakan fitur pelabelan otomatis untuk memastikan pelabelan lengkap.
Di panel sisi kanan di bawah pivot Label, Anda dapat menemukan semua kelas dalam proyek Anda dan jumlah instans berlabel per masing-masing.
Di bagian bawah panel sisi kanan Anda bisa menambahkan file saat ini yang Anda lihat ke set pelatihan atau set pengujian. Secara default, semua dokumen ditambahkan ke set pelatihan Anda. Pelajari selengkapnya tentang set pelatihan dan pengujian dan bagaimana mereka digunakan untuk pelatihan dan evaluasi model.

Tips

Jika Anda berencana menggunakan Pemisahan data Otomatis , gunakan opsi default untuk menetapkan semua dokumen ke dalam set pelatihan Anda.
Di bawah pivot Distribusi, Anda dapat melihat distribusi di seluruh dataset pelatihan dan pengujian. Anda memiliki dua opsi untuk melihat:
- Total instans tempat Anda dapat melihat jumlah semua instans berlabel dari kelas tertentu.
- Dokumen dengan setidaknya satu label di mana setiap dokumen dihitung jika berisi setidaknya satu instans berlabel dari kelas ini.
Saat Anda memberi label, perubahan Anda disinkronkan secara berkala, jika belum disimpan, Anda akan menemukan peringatan di bagian atas halaman Anda. Jika Anda ingin menyimpan secara manual, pilih tombol Simpan label di bagian bawah halaman.

Hapus label

Jika Anda ingin menghapus label, hapus centang tombol di samping kelas.

Menghapus atau kelas

Untuk menghapus kelas, pilih ikon di samping kelas yang ingin Anda hapus. Menghapus kelas akan menghapus semua instans berlabelnya dari himpunan data Anda.

Langkah berikutnya

Setelah Anda memberi label pada data, Anda dapat mulai melatih model yang akan belajar berdasarkan data Anda.