Bagikan melalui


Glosarium pembelajaran mesin dari istilah penting

Daftar berikut adalah kompilasi istilah pembelajaran mesin penting yang berguna saat Anda membangun model kustom Anda di ML.NET.

Akurasi

Dalam klasifikasi, akurasi adalah jumlah item yang diklasifikasikan dengan benar dibagi dengan jumlah total item dalam set pengujian. Berkisar antara 0 (paling tidak akurat) hingga 1 (paling akurat). Akurasi adalah salah satu metrik evaluasi performa model. Pertimbangkan bersama dengan presisi, pengenalan, dan F-score.

Area di bawah kurva (AUC)

Dalam klasifikasi biner, metrik evaluasi yang merupakan nilai area di bawah kurva yang memplot tingkat positif sejati (pada sumbu y) terhadap tingkat positif palsu (pada sumbu x). Berkisar dari 0,5 (terburuk) hingga 1 (terbaik). Juga dikenal sebagai area di bawah kurva ROC, yaitu, kurva karakteristik operasi penerima. Untuk informasi selengkapnya, lihat artikel karakteristik operasi Penerima di Wikipedia.

Klasifikasi biner

Kasus klasifikasi di mana label hanya satu dari dua kelas. Untuk informasi selengkapnya, lihat bagian Klasifikasi biner dari topik Tugas pembelajaran mesin .

Kalibrasi

Kalibrasi adalah proses pemetaan skor mentah ke keanggotaan kelas, untuk klasifikasi biner dan multikelas. Beberapa pelatih ML.NET memiliki NonCalibrated akhiran. Algoritma ini menghasilkan skor mentah yang kemudian harus dipetakan ke probabilitas kelas.

Katalog

Dalam ML.NET, katalog adalah kumpulan fungsi ekstensi, yang dikelompokkan menurut tujuan umum.

Misalnya, setiap tugas pembelajaran mesin (klasifikasi biner, regresi, peringkat, dll) memiliki katalog algoritma pembelajaran mesin (pelatih) yang tersedia. Katalog untuk pelatih klasifikasi biner adalah: BinaryClassificationCatalog.BinaryClassificationTrainers.

Klasifikasi

Ketika data digunakan untuk memprediksi kategori, tugas pembelajaran mesin yang diawasi disebut klasifikasi. Klasifikasi biner mengacu pada memprediksi hanya dua kategori (misalnya, mengklasifikasikan gambar sebagai gambar 'kucing' atau 'anjing'). Klasifikasi multikelas mengacu pada memprediksi beberapa kategori (misalnya, saat mengklasifikasikan gambar sebagai gambar anjing jenis tertentu).

Koefisien penentuan

Dalam regresi, metrik evaluasi yang menunjukkan seberapa baik data cocok dengan model. Berkisar dari 0 hingga 1. Nilai 0 berarti bahwa data acak atau tidak boleh sesuai dengan model. Nilai 1 berarti bahwa model sama persis dengan data. Ini sering disebut sebagai r2, R2, atau r-kuadrat.

Data

Data adalah pusat dari aplikasi pembelajaran mesin apa pun. Dalam ML.NET data diwakili oleh IDataView objek. Objek tampilan data:

  • terdiri dari kolom dan baris
  • dievaluasi dengan malas, yaitu mereka hanya memuat data ketika operasi memanggilnya
  • berisi skema yang menentukan jenis, format, dan panjang setiap kolom

Estimator

Kelas di ML.NET yang mengimplementasikan IEstimator<TTransformer> antarmuka.

Estimator adalah spesifikasi transformasi (transformasi persiapan data dan transformasi pelatihan model pembelajaran mesin). Estimator dapat dirangkai bersama ke dalam alur transformasi. Parameter estimator atau alur estimator dipelajari ketika Fit dipanggil. Hasilnya Fit adalah Transformer.

Metode ekstensi

Metode .NET yang merupakan bagian dari kelas tetapi didefinisikan di luar kelas. Parameter pertama dari metode ekstensi adalah referensi statis this ke kelas tempat metode ekstensi berada.

Metode ekstensi digunakan secara ekstensif dalam ML.NET untuk membangun instans estimator.

Fitur

Properti terukur dari fenomena yang diukur, biasanya nilai numerik (ganda). Beberapa fitur disebut sebagai vektor Fitur dan biasanya disimpan sebagai double[]. Fitur mendefinisikan karakteristik penting dari fenomena yang diukur. Untuk informasi selengkapnya, lihat artikel Fitur di Wikipedia.

Rekayasa fitur

Rekayasa fitur adalah proses yang melibatkan penentuan serangkaian fitur dan mengembangkan perangkat lunak yang menghasilkan vektor fitur dari data fenomena yang tersedia, yaitu, ekstraksi fitur. Untuk informasi selengkapnya, lihat artikel Rekayasa fitur di Wikipedia.

F-score

Dalam klasifikasi, metrik evaluasi yang menyeimbangkan presisi dan pengenalan.

Hyperparameter

Parameter algoritma pembelajaran mesin. Contohnya termasuk jumlah pohon yang akan dipelajari di hutan keputusan atau ukuran langkah dalam algoritma penurunan gradien. Nilai Hyperparameter diatur sebelum melatih model dan mengatur proses menemukan parameter fungsi prediksi, misalnya, titik perbandingan dalam pohon keputusan atau bobot dalam model regresi linier. Untuk informasi selengkapnya, lihat artikel Hyperparameter di Wikipedia.

Label

Elemen yang akan diprediksi dengan model pembelajaran mesin. Misalnya, jenis anjing atau harga stok di masa depan.

Log loss

Dalam klasifikasi, metrik evaluasi yang mencirikan akurasi pengklasifikasi. Kerugian log yang lebih kecil adalah, semakin akurat pengklasifikasinya.

Fungsi loss

Fungsi kerugian adalah perbedaan antara nilai label pelatihan dan prediksi yang dibuat oleh model. Parameter model diperkirakan dengan meminimalkan fungsi kerugian.

Pelatih yang berbeda dapat dikonfigurasi dengan fungsi kerugian yang berbeda.

Kesalahan absolut rata-rata (MAE)

Dalam regresi, metrik evaluasi yang merupakan rata-rata semua kesalahan model, di mana kesalahan model adalah jarak antara nilai label yang diprediksi dan nilai label yang benar.

Model

Secara tradisional, parameter untuk fungsi prediksi. Misalnya, bobot dalam model regresi linier atau titik pemisahan di pohon keputusan. Dalam ML.NET, model berisi semua informasi yang diperlukan untuk memprediksi label objek domain (misalnya, gambar atau teks). Ini berarti bahwa model ML.NET mencakup langkah-langkah fiturisasi yang diperlukan serta parameter untuk fungsi prediksi.

Klasifikasi multikelas

Kasus klasifikasi di mana label adalah salah satu dari tiga kelas atau lebih. Untuk informasi selengkapnya, lihat bagian Klasifikasi multikelas dari topik Tugas pembelajaran mesin .

N-gram

Skema ekstraksi fitur untuk data teks: urutan kata N apa pun berubah menjadi nilai fitur .

Normalisasi kasus

Normalisasi adalah proses penskalaan data floating point ke nilai antara 0 dan 1. Banyak algoritma pelatihan yang digunakan dalam ML.NET memerlukan data fitur input untuk dinormalisasi. ML.NET menyediakan serangkaian transformasi untuk normalisasi

Vektor fitur numerik

Vektor fitur yang hanya terdiri dari nilai numerik. Ini mirip dengan double[].

Alur

Semua operasi yang diperlukan agar pas dengan model ke himpunan data. Alur terdiri dari langkah-langkah impor, transformasi, fiturisasi, dan pembelajaran data. Setelah alur dilatih, alur berubah menjadi model.

Presisi

Dalam klasifikasi, presisi untuk kelas adalah jumlah item yang diprediksi dengan benar sebagai milik kelas tersebut dibagi dengan jumlah total item yang diprediksi sebagai milik kelas.

Pengenalan

Dalam klasifikasi, pengenalan untuk kelas adalah jumlah item yang diprediksi dengan benar sebagai milik kelas tersebut dibagi dengan jumlah total item yang sebenarnya termasuk dalam kelas.

Regularisasi

Regularisasi menghukus model linier karena terlalu rumit. Ada dua jenis regularisasi:

  • $L_1$ regularisasi nol bobot untuk fitur yang tidak signifikan. Ukuran model yang disimpan mungkin menjadi lebih kecil setelah jenis regularisasi ini.
  • regularisasi $L_2$ meminimalkan rentang berat untuk fitur yang tidak signifikan. Ini adalah proses yang lebih umum dan kurang sensitif terhadap outlier.

Regresi

Tugas pembelajaran mesin yang diawasi di mana output adalah nilai nyata, misalnya, ganda. Contohnya termasuk memprediksi harga saham. Untuk informasi selengkapnya, lihat bagian Regresi dari topik Tugas pembelajaran mesin .

Kesalahan absolut relatif

Dalam regresi, metrik evaluasi yang merupakan jumlah dari semua kesalahan absolut dibagi dengan jumlah jarak antara nilai label yang benar dan rata-rata semua nilai label yang benar.

Kesalahan kuadrat relatif

Dalam regresi, metrik evaluasi yang merupakan jumlah dari semua kesalahan absolut kuadrat dibagi dengan jumlah jarak kuadrat antara nilai label yang benar dan rata-rata semua nilai label yang benar.

Akar kesalahan kuadrat rata-rata (RMSE)

Dalam regresi, metrik evaluasi yang merupakan akar kuadrat dari rata-rata kuadrat kesalahan.

Penilaian

Penilaian adalah proses penerapan data baru ke model pembelajaran mesin terlatih, dan menghasilkan prediksi. Penilaian juga dikenal sebagai inferensi. Bergantung pada jenis model, skornya mungkin merupakan nilai mentah, probabilitas, atau kategori.

Pembelajaran mesin yang diawasi

Subkelas pembelajaran mesin di mana model yang diinginkan memprediksi label untuk data yang belum diselidiki. Contohnya termasuk klasifikasi, regresi, dan prediksi terstruktur. Untuk informasi selengkapnya, lihat artikel Pembelajaran yang diawasi di Wikipedia.

Pelatihan

Proses mengidentifikasi model untuk himpunan data pelatihan tertentu. Untuk model linier, ini berarti menemukan bobot. Untuk pohon, ini melibatkan identifikasi titik terpisah.

Transformator

Kelas ML.NET yang mengimplementasikan ITransformer antarmuka.

Transformator mengubah satu IDataView menjadi yang lain. Transformator dibuat dengan melatih estimator, atau alur estimator.

Pembelajaran mesin yang tidak diawasi

Subkelas pembelajaran mesin di mana model yang diinginkan menemukan struktur tersembunyi (atau laten) dalam data. Contohnya termasuk pengklusteran, pemodelan topik, dan pengurangan dimensi. Untuk informasi selengkapnya, lihat artikel Pembelajaran tanpa pengawas di Wikipedia.