Bagikan melalui


Cara menyiapkan data untuk analisis sentimen kustom

Untuk membuat model analisis sentimen kustom, Anda akan memerlukan data berkualitas untuk melatihnya. Artikel ini membahas bagaimana Anda harus memilih dan menyiapkan data Anda, bersama dengan menentukan skema. Menentukan skema adalah langkah pertama dalam siklus hidup pengembangan proyek, dan mendefinisikan kelas yang Anda butuhkan model Anda untuk mengklasifikasikan teks Anda saat runtime.

Pemilihan data

Kualitas data yang Anda gunakan untuk melatih model sangat memengaruhi performa model.

  • Gunakan data sungguhan yang mencerminkan ruang masalah domain Anda untuk melatih model secara efektif. Anda dapat menggunakan data sintetis untuk mempercepat proses pelatihan model awal, tetapi kemungkinan akan berbeda dari data sungguhan dan membuat model kurang efektif saat digunakan.

  • Seimbangkan distribusi data Anda sebanyak mungkin tanpa menyimpang jauh dari distribusi di kehidupan nyata.

  • Gunakan data yang beragam jika mungkin untuk menghindari overfitting pada model Anda. Kurangnya keragaman dalam data pelatihan dapat menyebabkan model Anda mempelajari korelasi palsu yang mungkin tidak ada dalam data di kehidupan nyata.

  • Hindari duplikat dokumen dalam data Anda. Data duplikat memiliki efek negatif pada proses pelatihan, metrik model, dan performa model.

  • Pertimbangkan asal data Anda. Jika Anda mengumpulkan data dari satu orang, departemen, atau bagian dari skenario Anda, kemungkinan Anda kehilangan keragaman yang mungkin penting bagi model Anda untuk dipelajari.

Catatan

Jika dokumen Anda berada dalam beberapa bahasa, pilih opsi beberapa bahasa selama pembuatan proyek dan atur opsi bahasa ke bahasa sebagian besar dokumen Anda.

Penyiapan data

Sebagai prasyarat untuk membuat proyek Analisis sentimen kustom, data pelatihan Anda perlu diunggah ke kontainer blob di akun penyimpanan Anda. Anda dapat membuat dan mengunggah dokumen pelatihan dari Azure secara langsung, atau melalui alat Azure Storage Explorer. Dengan menggunakan alat Azure Storage Explorer, Anda dapat mengunggah lebih banyak data dengan cepat.

Anda hanya dapat menggunakan .txt. dokumen untuk teks kustom. Jika data Anda dalam format lain, Anda dapat menggunakan perintah parse CLUtils untuk mengubah format file Anda.

Set pengujian

Saat menentukan set pengujian, pastikan untuk menyertakan contoh dokumen yang tidak ada dalam set pelatihan. Menentukan set pengujian adalah langkah penting untuk menghitung performa model. Selain itu, pastikan bahwa set pengujian menyertakan dokumen yang mewakili semua kelas yang digunakan dalam proyek Anda.

Langkah berikutnya

Jika Anda belum melakukannya, buat proyek Analisis sentimen kustom. Jika ini pertama kalinya Anda menggunakan Analisis sentimen kustom, pertimbangkan untuk mengikuti mulai cepat untuk membuat contoh proyek. Anda juga dapat melihat persyaratan proyek untuk mengetahui detail lebih lanjut tentang apa yang Anda butuhkan untuk membuat proyek.