Bagikan melalui


Bagaimana menyiapkan data dan menentukan skema klasifikasi teks

Untuk membuat model klasifikasi teks khusus, Anda memerlukan data berkualitas untuk melatihnya. Artikel ini membahas bagaimana Anda harus memilih dan menyiapkan data Anda, bersama dengan menentukan skema. Menentukan skema adalah langkah pertama dalam siklus hidup pengembangan proyek, dan menentukan kelas yang Anda butuhkan model Anda untuk mengklasifikasikan teks Anda ke dalam pada waktu proses.

Desain skema

Skema ini mendefinisikan kelas untuk teks yang perlu diklasifikasikan model Anda saat runtime.

  • Tinjau dan identifikasi: Tinjau dokumen dalam set data Anda untuk mengetahui struktur dan isinya, lalu identifikasi bagaimana Anda ingin mengklasifikasikan data Anda.

    Misalnya, jika Anda mengklasifikasikan tiket dukungan, Anda mungkin memerlukan kelas berikut: masalah login, masalah perangkat keras, masalah konektivitas, dan permintaan peralatan baru.

  • Hindari ambiguitas di kelas: Ambiguitas muncul ketika kelas yang Anda tentukan memiliki arti yang sama dengan kelas yang lain. Semakin ambigu skema Anda, semakin banyak data berlabel yang mungkin Anda perlukan untuk membedakan antara kelas yang berbeda.

    Misalnya, jika Anda mengklasifikasikan resep makanan, kemungkinan akan ada kemiripan dengan resep tertentu. Untuk membedakan antara resep makanan penutup dan resep hidangan utama, Anda mungkin perlu melabeli lebih banyak contoh untuk membantu model Anda membedakan antara dua kelas. Menghindari ambiguitas akan menghemat waktu, upaya, dan menghasilkan hasil yang lebih baik.

  • Data di luar cakupan: Saat menggunakan model Anda dalam produksi, pertimbangkan untuk menambahkan kelas di luar cakupan ke skema Anda jika Anda mengharapkan dokumen yang bukan milik salah satu kelas Anda. Kemudian tambahkan beberapa dokumen ke himpunan data Anda untuk dilabeli sebagai di luar cakupan. Model dapat belajar mengenali dokumen yang tidak relevan, dan memprediksi label yang sesuai.

Pemilihan data

Kualitas data yang Anda gunakan untuk melatih model sangat memengaruhi performa model.

  • Gunakan data sungguhan yang mencerminkan ruang masalah domain Anda untuk melatih model secara efektif. Anda dapat menggunakan data sintetis untuk mempercepat proses pelatihan model awal, tetapi kemungkinan akan berbeda dari data sungguhan dan membuat model kurang efektif saat digunakan.

  • Seimbangkan distribusi data Anda semaksimal mungkin tanpa menyimpang jauh dari distribusi di kehidupan nyata.

  • Gunakan data yang beragam jika mungkin untuk menghindari overfitting pada model Anda. Kurangnya keragaman dalam data pelatihan dapat menyebabkan model Anda mempelajari korelasi palsu yang mungkin tidak ada dalam data di kehidupan nyata.

  • Hindari duplikat dokumen dalam data Anda. Data duplikat memiliki efek negatif pada proses pelatihan, metrik model, dan performa model.

  • Pertimbangkan asal data Anda. Jika Anda mengumpulkan data dari satu orang, departemen, atau bagian dari skenario Anda, kemungkinan Anda kehilangan keragaman yang mungkin penting bagi model Anda untuk dipelajari.

Catatan

Jika dokumen Anda dalam beberapa bahasa, pilih opsi beberapa bahasa selama pembuatan proyek dan setel opsi bahasa ke bahasa sebagian besar dokumen Anda.

Penyiapan data

Sebagai prasyarat untuk membuat proyek klasifikasi teks, data pelatihan Anda perlu diunggah ke kontainer blob di akun penyimpanan Anda. Anda dapat membuat dan mengunggah dokumen pelatihan dari Azure secara langsung, atau melalui alat Azure Storage Explorer. Dengan menggunakan alat Azure Storage Explorer, Anda dapat mengunggah lebih banyak data dengan cepat.

Anda hanya dapat menggunakan .txt. dokumen untuk teks kustom. Jika data Anda dalam format lain, Anda dapat menggunakan perintah parse CLUtils untuk mengubah format file Anda.

Anda dapat mengunggah himpunan data beranotasi atau Anda dapat mengunggah yang tidak beranotasi dan memberi label pada data Anda di Language Studio.

Set pengujian

Saat menentukan set pengujian, pastikan untuk menyertakan contoh dokumen yang tidak ada dalam set pelatihan. Menentukan set pengujian adalah langkah penting untuk menghitung performa model. Selain itu, pastikan bahwa set pengujian menyertakan dokumen yang mewakili semua kelas yang digunakan dalam proyek Anda.

Langkah berikutnya

Jika Anda belum melakukannya, buat proyek klasifikasi teks khusus. Jika ini pertama kalinya Anda menggunakan klasifikasi teks ubahsuaian, pertimbangkan untuk mengikuti panduan cepat untuk membuat proyek contoh. Anda juga dapat melihat persyaratan proyek untuk mengetahui detail lebih lanjut tentang apa yang Anda butuhkan untuk membuat proyek.