Terminologi dan definisi yang digunakan dalam klasifikasi teks kustom

Artikel
12/19/2023

Gunakan artikel ini untuk mempelajari tentang beberapa definisi dan istilah yang mungkin Anda temui saat menggunakan klasifikasi teks kustom.

Kelas

Kelas adalah kategori yang ditentukan pengguna, yang menunjukkan klasifikasi teks secara keseluruhan. Pengembang memberi label data mereka dengan kelas mereka sebelum meneruskannya ke model untuk pelatihan.

f-measure

F-measure adalah fungsi dari Presisi dan Pengenalan. Hal ini diperlukan ketika Anda mencari keseimbangan antara Presisi dan Pengenalan.

Model

Model adalah objek yang dilatih untuk melakukan tugas tertentu, dalam hal ini adalah tugas klasifikasi teks. Model dilatih dengan menyediakan data berlabel untuk dipelajari sehingga nantinya dapat digunakan untuk tugas klasifikasi.

Pelatihan model adalah proses mengajari model cara mengklasifikasikan dokumen berdasarkan data berlabel.
Evaluasi model adalah proses yang terjadi tepat setelah pelatihan untuk mengetahui seberapa baik performa model Anda.
Penyebaran adalah proses menetapkan model Anda ke penyebaran agar membuatnya tersedia untuk digunakan melalui API prediksi.

Presisi

Mengukur seberapa presisi/akurat model Anda. Ini adalah rasio antara positif yang diidentifikasi dengan benar (positif sejati) dan semua positif yang diidentifikasi. Metrik presisi mengungkapkan berapa banyak kelas yang diprediksi diberi label dengan benar.

Project

Proyek adalah area kerja untuk membuat model ML kustom berdasarkan data Anda. Proyek Anda hanya dapat diakses oleh Anda dan orang lain yang memiliki akses kontributor ke sumber daya Azure yang digunakan. Sebagai prasyarat untuk membuat proyek klasifikasi teks kustom, Anda harus menyambungkan sumber daya ke akun penyimpanan dengan himpunan data saat Anda membuat proyek baru. Proyek Anda secara otomatis menyertakan semua file .txt yang tersedia di kontainer Anda.

Dalam proyek, Anda dapat melakukan hal berikut:

Melabeli data: Proses pelabelan pada data Anda, sehingga ketika Anda melatih model, ia mempelajari apa yang ingin Anda ekstrak.
Membangun dan melatih model: Langkah inti dari proyek Anda, ketka model Anda mulai belajar dari data yang diberi label.
Melihat detail evaluasi model: Meninjau performa model Anda untuk memutuskan apakah ada ruang untuk peningkatan kualitas atau Anda puas dengan hasilnya.
Penyebaran: Setelah meninjau performa model dan memutuskan itu cocok untuk digunakan di lingkungan Anda; Anda harus menetapkannya ke penyebaran untuk dapat mengkuerinya. Menetapkan model ke penyebaran membuatnya tersedia untuk digunakan melalui API prediksi.
Uji model: Setelah menyebarkan model, Anda dapat menggunakan operasi ini di Studio Bahasa untuk mencoba penyebaran Anda dan melihat bagaimana performanya dalam produksi.

Jenis proyek

Klasifikasi teks kustom mendukung dua jenis proyek

Klasifikasi label tunggal - Anda dapat menetapkan satu kelas untuk setiap dokumen dalam himpunan data Anda. Misalnya, naskah film hanya dapat diklasifikasikan sebagai "Romansa" atau "Komedi".
Klasifikasi multi-label - Anda dapat menetapkan beberapa kelas untuk setiap dokumen dalam kumpulan data Anda. Misalnya, skrip film dapat diklasifikasikan sebagai "Komedi" atau "Percintaan" dan "Komedi".

Pengenalan

Mengukur kemampuan model untuk memprediksi kelas positif aktual. Ini adalah rasio antara prediksi positif benar dan yang sebenarnya diberi tag. Metrik pengenalan mengungkapkan berapa banyak kelas yang diprediksi benar.