Memberi label data Anda di Language Studio

Sebelum melatih model, Anda perlu memberi label dokumen Anda dengan entitas kustom yang ingin Anda ekstrak. Pelabelan data adalah langkah penting dalam siklus hidup pengembangan. Dalam langkah ini Anda dapat membuat jenis entitas yang ingin Anda ekstrak dari data Anda dan memberi label entitas ini dalam dokumen Anda. Data ini akan digunakan pada langkah berikutnya saat melatih model Anda sehingga model Anda dapat belajar dari data berlabel. Jika Anda sudah memiliki data berlabel, Anda dapat langsung mengimpornya ke proyek Tetapi Anda perlu memastikan bahwa data Anda mengikuti format data yang diterima. Lihat membuat proyek untuk mempelajari selengkapnya tentang mengimpor data berlabel ke dalam proyek Anda.

Sebelum membuat model NER kustom, Anda harus memiliki data berlabel terlebih dahulu. Jika data Anda belum diberi label, Anda dapat melabelinya di Language Studio. Data berlabel menginformasikan model bagaimana menafsirkan teks, dan digunakan untuk pelatihan dan evaluasi.

Prasyarat

Sebelum Anda dapat memberi label pada data Anda, Anda perlu:

Lihat siklus hidup pengembangan proyek untuk informasi selengkapnya.

Panduan pelabelan data

Setelah menyiapkan data Anda, merancang skema dan membuat proyek, Anda harus memberi label data Anda. Pelabelan data Anda penting sehingga model Anda mengetahui kata-kata mana yang akan dikaitkan dengan jenis entitas yang perlu Anda ekstrak. Saat Anda melabeli data di Language Studio (atau mengimpor data berlabel), label-label ini akan disimpan dalam dokumen JSON di kontainer penyimpanan yang telah Anda sambungkan ke proyek ini.

Saat Anda memberi label pada data Anda, ingatlah:

  • Secara umum, lebih banyak data berlabel mengarah ke hasil yang lebih baik, asalkan data diberi label secara akurat.

  • Ketepatan, konsistensi, dan kelengkapan data berlabel Anda adalah faktor kunci untuk menentukan performa model.

    • Beri label dengan tepat: Selalu beri label setiap entitas ke jenis yang tepat. Hanya sertakan apa yang ingin Anda ekstrak, hindari data yang tidak perlu di label Anda.
    • Beri label secara konsisten: Entitas yang sama harus memiliki label yang sama di semua dokumen.
    • Beri label sepenuhnya: Beri label semua instans entitas di semua dokumen Anda. Anda dapat menggunakan fitur pelabelan otomatis untuk memastikan pelabelan lengkap.

    Catatan

    Tidak ada jumlah label tetap yang dapat menjamin model Anda akan melakukan yang terbaik. Performa model tergantung pada kemungkinan ambiguitas dalam skema Anda, dan kualitas data berlabel Anda. Namun demikian, sebaiknya anda memiliki sekitar 50 instans berlabel per jenis entitas.

Memberi label pada data Anda

Gunakan langkah-langkah berikut untuk memberi label pada data Anda:

  1. Buka halaman proyek Anda di Language Studio.

  2. Dari menu samping, pilih Beri tag pada data. Anda dapat menemukan daftar semua dokumen di kontainer penyimpanan Anda.

    Tip

    Anda dapat menggunakan filter di menu atas untuk melihat dokumen yang tidak berlabel sehingga Anda dapat mulai melabeli. Anda juga dapat menggunakan filter untuk melihat dokumen yang diberi label dengan jenis entitas tertentu.

  3. Ubah ke tampilan dokumen tunggal dari sisi kiri di menu atas atau pilih dokumen tertentu untuk memulai pelabelan. Anda dapat menemukan daftar semua dokumen .txt yang tersedia di proyek Anda di sebelah kiri. Anda dapat menggunakan tombol Kembali dan Berikutnya dari bagian bawah halaman untuk menavigasi dokumen Anda.

    Catatan

    Jika Anda mengaktifkan beberapa bahasa untuk proyek Anda, Anda akan menemukan tarik-turun Bahasa di menu atas, yang memungkinkan Anda memilih bahasa setiap dokumen.

  4. Di panel sisi kanan, Tambahkan jenis entitas ke proyek Anda sehingga Anda bisa mulai memberi label data Anda dengannya.

  5. Anda memiliki dua opsi untuk memberi label pada dokumen Anda:

    Opsi Deskripsi
    Label menggunakan kuas Pilih ikon kuas di samping jenis entitas di panel kanan, lalu sorot teks dalam dokumen yang ingin Anda anotasi dengan jenis entitas ini.
    Label menggunakan menu Sorot kata yang ingin Anda beri label sebagai entitas, dan sebuah menu akan muncul. Pilih jenis entitas yang ingin Anda tetapkan untuk entitas ini.

    Tangkapan layar di bawah ini menunjukkan pelabelan menggunakan kuas.

    Cuplikan layar yang menunjukkan opsi pelabelan yang ditawarkan di NER Kustom.

  6. Di panel sisi kanan di bawah pivot Label, Anda dapat menemukan semua jenis entitas dalam proyek Anda dan jumlah instans berlabel per masing-masing.

  7. Di bagian bawah panel sisi kanan, Anda bisa menambahkan dokumen yang saat ini Anda tampilkan ke set pelatihan atau set pengujian. Secara default, semua dokumen ditambahkan ke set pelatihan Anda. Pelajari selengkapnya tentang set pelatihan dan pengujian dan bagaimana mereka digunakan untuk pelatihan dan evaluasi model.

    Tip

    Jika Anda berencana menggunakan Pemisahan data otomatis, gunakan opsi default untuk menetapkan semua dokumen ke dalam set pelatihan Anda.

  8. Di bawah pivot Distribusi, Anda dapat melihat distribusi di seluruh set pelatihan dan pengujian. Anda memiliki dua opsi untuk melihat:

    • Total instans tempat Anda dapat menampilkan jumlah semua instans berlabel dari jenis entitas tertentu.
    • Dokumen dengan setidaknya satu label di mana setiap dokumen dihitung jika berisi setidaknya satu instans berlabel dari entitas ini.
  9. Saat Anda memberi label, perubahan Anda akan disinkronkan secara berkala, jika belum disimpan, Anda akan menemukan peringatan di bagian atas halaman Anda. Jika Anda ingin menyimpan secara manual, pilih tombol Simpan label di bagian bawah halaman.

Hapus label

Untuk menghapus label

  1. Pilih entitas yang ingin Anda hapus labelnya.
  2. Gulir menu yang muncul, dan pilih Hapus label.

Menghapus entitas

Untuk menghapus entitas, pilih ikon hapus di samping entitas yang ingin Anda hapus. Menghapus entitas akan menghapus semua instans berlabelnya dari himpunan data Anda.

Langkah berikutnya

Setelah Anda memberi label pada data, Anda dapat mulai melatih model yang akan belajar berdasarkan data Anda.