Bagikan melalui


Cara untuk melatih model klasifikasi teks

Pelatihan adalah proses di mana model belajar dari data berlabel Anda. Setelah pelatihan selesai, Anda akan dapat melihat performa model untuk menentukan apakah Anda perlu meningkatkan model Anda.

Untuk melatih model, mulai pekerjaan pelatihan. Hanya pekerjaan yang berhasil diselesaikan yang membuat model yang dapat digunakan. Pekerjaan pelatihan kedaluwarsa setelah tujuh hari. Setelah periode ini, Anda tidak akan dapat mengambil detail pekerjaan. Jika pekerjaan pelatihan Anda berhasil diselesaikan dan model dibuat, maka tidak akan terpengaruh oleh kedaluwarsa pekerjaan. Anda hanya dapat memiliki satu pekerjaan pelatihan yang berjalan pada satu waktu, dan Anda tidak dapat memulai pekerjaan lain dalam proyek yang sama.

Waktu pelatihan dapat dilakukan dari beberapa menit saat berhadapan dengan beberapa dokumen, hingga beberapa jam tergantung pada ukuran himpunan data dan kompleksitas skema Anda.

Prasyarat

Sebelum Anda melatih model, Anda harus:

Lihat siklus hidup pengembangan proyek untuk informasi selengkapnya.

Pemisahan data

Sebelum Anda memulai proses pelatihan, dokumen berlabel dalam proyek Anda dibagi menjadi set pelatihan dan set pengujian. Masing-masing dari mereka melayani fungsi yang berbeda. Set pelatihan digunakan dalam melatih model, ini adalah set tempat model mempelajari kelas/kelas yang ditetapkan ke setiap dokumen. Set pengujian adalah perangkat buta yang tidak diperkenalkan ke model selama pelatihan tetapi hanya selama evaluasi. Setelah model berhasil dilatih, model digunakan untuk membuat prediksi dari dokumen dalam set pengujian. Berdasarkan prediksi ini, metrik evaluasi model akan dihitung. Disarankan untuk memastikan bahwa semua kelas Anda diwakili secara memadai dalam set pelatihan dan pengujian.

Klasifikasi teks kustom mendukung dua metode untuk pemisahan data:

  • Secara otomatis memisahkan set pengujian dari data pelatihan: Sistem akan memisahkan data berlabel Anda antara set pengujian dan pelatihan, sesuai dengan persentase yang Anda pilih. Sistem akan mencoba untuk memiliki representasi semua kelas dalam set pelatihan Anda. Pembagian persentase yang disarankan adalah 80% untuk pelatihan dan 20% untuk pengujian.

Catatan

Jika Anda memilih opsi Memisahkan set pengujian dari data pelatihan secara otomatis, hanya data yang ditetapkan ke set pelatihan yang akan dibagi menurut persentase yang diberikan.

  • Gunakan pemisahan manual data pelatihan dan pengujian: Metode ini memungkinkan pengguna untuk menentukan dokumen berlabel mana yang harus termasuk dalam set mana. Langkah ini hanya diaktifkan jika Anda telah menambahkan dokumen ke set pengujian Selama pelabelan data.

Model latihan

Untuk mulai melatih model Anda dari dalam Language Studio:

  1. Pilih Pekerjaan pelatihan dari menu sebelah kiri.

  2. Pilih Mulai pekerjaan pelatihan dari menu atas.

  3. Pilih Latih model baru dan ketik nama model di kotak teks. Anda juga dapat menimpa model yang ada dengan memilih opsi ini dan memilih model yang ingin Anda timpa dari menu drop-down. Menimpa model terlatih tidak dapat diubah, tetapi tidak akan memengaruhi model yang Anda sebarkan hingga Anda menyebarkan model baru.

    Buat pekerjaan pelatihan baru

  4. Pilih metode pemisahan data. Anda dapat memilih Memisahkan set pengujian secara otomatis dari data pelatihan di mana sistem akan membagi data berlabel Anda antara set pelatihan dan pengujian, sesuai dengan persentase yang ditentukan. Atau Anda dapat Menggunakan pemisahan manual data pelatihan dan pengujian, opsi ini hanya diaktifkan jika Anda telah menambahkan dokumen ke set pengujian Anda selama pelabelan data. Lihat Cara melatih model untuk informasi selengkapnya tentang pemisahan data.

  5. Pilih tombol Latih.

  6. Jika Anda memilih ID pekerjaan pelatihan dari daftar, panel samping akan muncul di mana Anda dapat memeriksa kemajuan Pelatihan, Status pekerjaan, dan detail lainnya untuk pekerjaan ini.

    Catatan

    • Hanya pekerjaan pelatihan yang berhasil diselesaikan yang akan menghasilkan model.
    • Waktu untuk melatih model dapat memakan waktu antara beberapa menit hingga beberapa jam berdasarkan ukuran data berlabel Anda.
    • Anda hanya dapat memiliki satu pekerjaan pelatihan yang berjalan pada satu waktu. Anda tidak dapat memulai pekerjaan pelatihan lain dalam proyek yang sama sampai pekerjaan yang sedang berjalan selesai.

Membatalkan pekerjaan pelatihan

Untuk membatalkan pekerjaan pelatihan dalam Language Studio, buka halaman Pekerjaan pelatihan. Pilih pekerjaan pelatihan yang ingin Anda batalkan, dan pilih Batalkan dari menu atas.

Langkah berikutnya

Setelah pelatihan selesai, Anda akan dapat melihat performa model untuk secara opsional meningkatkan model Anda jika diperlukan. Setelah Anda puas dengan model Anda, Anda dapat menerapkannya, membuatnya tersedia untuk digunakan untuk mengklasifikasikan teks.