Memberi label data teks untuk melatih model Anda untuk Analisis sentimen kustom

Artikel
12/19/2023

Sebelum melatih model, Anda perlu memberi label dokumen Anda dengan sentimen yang ingin Anda kategorikan. Data ini akan digunakan pada langkah berikutnya saat melatih model Anda sehingga model Anda dapat belajar dari data berlabel. Jika Anda sudah memiliki data berlabel, Anda dapat langsung mengimpornya ke proyek Anda. Pastikan data Anda mengikuti format data yang diterima.

Sebelum membuat model analisis sentimen kustom, Anda harus melabeli data terlebih dahulu. Jika data Anda belum diberi label, Anda dapat melabelinya di Language Studio. Data berlabel menginformasikan model bagaimana menafsirkan teks, dan digunakan untuk pelatihan dan evaluasi.

Prasyarat

Sebelum Anda melabeli data, Anda perlu:

Proyek yang berhasil dibuat dengan akun penyimpanan blob Azure yang dikonfigurasi.
Dokumen yang berisi data teks yang telah diunggah ke akun penyimpanan Anda.

Lihat siklus hidup pengembangan proyek untuk informasi selengkapnya.

Panduan pelabelan data

Setelah menyiapkan data dan membuat proyek, Anda harus memberi label data Anda. Pelabelan data Anda penting sehingga model Anda mengetahui dokumen mana yang akan dikaitkan dengan sentimen yang Anda butuhkan. Saat Anda memberi label data di Language Studio (atau mengimpor data berlabel), label ini akan disimpan dalam file JSON di kontainer penyimpanan yang sudah Anda sambungkan ke proyek ini.

Saat Anda melabeli data Anda, ingatlah:

Secara umum, lebih banyak data berlabel mengarah ke hasil yang lebih baik, asalkan data diberi label secara akurat.
Tidak ada jumlah label tetap yang dapat menjamin model Anda akan melakukan yang terbaik. Performa model pada kemungkinan ambiguitas dalam data Anda, dan kualitas data berlabel Anda.

Memberi label pada data Anda

Gunakan langkah-langkah berikut untuk memberi label pada data Anda:

Buka halaman proyek Anda di Language Studio.
Dari menu samping, pilih Beri tag pada data. Anda dapat menemukan daftar semua dokumen di kontainer penyimpanan Anda.

Tip

Anda dapat menggunakan filter di menu atas untuk melihat file yang tidak berlabel sehingga Anda dapat mulai memberi label. Anda juga dapat menggunakan filter untuk menampilkan dokumen yang diberi label dengan sentimen tertentu.
Ubah ke tampilan file tunggal dari sisi kiri di menu atas atau pilih file tertentu untuk memulai pelabelan. Anda dapat menemukan daftar semua file .txt yang tersedia di proyek Anda di sebelah kiri. Anda dapat menggunakan tombol Kembali dan Berikutnya dari bagian bawah halaman untuk menavigasikan dokumen Anda.

Catatan

Jika Anda mengaktifkan beberapa bahasa untuk proyek Anda, Anda akan menemukan tarik-turun Bahasa di menu atas, yang memungkinkan Anda memilih bahasa setiap dokumen.
Di panel sisi kanan, Anda bisa menambahkan sentimen ke proyek Anda untuk mulai memberi label data Anda dengannya.
Di panel sisi kanan di bawah pivot Label , Anda dapat menemukan semua sentimen dalam proyek Anda dan jumlah instans berlabel untuk masing-masing.
Di bagian bawah panel sisi kanan Anda bisa menambahkan file saat ini yang Anda lihat ke set pelatihan atau set pengujian. Secara default, semua dokumen ditambahkan ke set pelatihan Anda. Pelajari selengkapnya tentang set pelatihan dan pengujian dan bagaimana mereka digunakan untuk pelatihan dan evaluasi model.

Tip

Jika Anda berencana menggunakan Pemisahan data otomatis , gunakan opsi default untuk menetapkan semua dokumen ke dalam set pelatihan Anda.
Di bawah pivot Distribusi, Anda dapat melihat distribusi di seluruh set pelatihan dan pengujian. Anda memiliki dua opsi untuk melihat:
- Total instans tempat Anda dapat melihat jumlah semua instans berlabel dari sentimen tertentu.
- Dokumen dengan setidaknya satu label di mana setiap dokumen dihitung jika berisi setidaknya satu instans berlabel sentimen ini.
Sementara Anda memberi label, perubahan Anda akan disinkronkan secara berkala, jika belum disimpan, Anda akan menemukan peringatan di bagian atas halaman Anda. Jika Anda ingin menyimpan secara manual, klik tombol Simpan label di bagian bawah laman.

Langkah berikutnya

Setelah Anda memberi label pada data, Anda dapat mulai melatih model yang akan belajar berdasarkan data Anda.

Bagikan melalui