Meningkatkan model ML.NET Anda
Pelajari cara meningkatkan model ML.NET Anda.
Reframe masalah
Terkadang, meningkatkan model mungkin tidak ada hubungannya dengan data atau teknik yang digunakan untuk melatih model. Sebaliknya, mungkin saja pertanyaan yang salah sedang diajukan. Pertimbangkan untuk melihat masalah dari sudut yang berbeda dan memanfaatkan data untuk mengekstrak indikator laten dan hubungan tersembunyi untuk memperbaiki pertanyaan.
Menyediakan lebih banyak sampel data
Seperti manusia, semakin banyak algoritma pelatihan, kemungkinan performa yang lebih baik meningkat. Salah satu cara untuk meningkatkan performa model adalah dengan memberikan lebih banyak sampel data pelatihan ke algoritma. Semakin banyak data yang dipelajarinya, semakin banyak kasus yang dapat diidentifikasi dengan benar.
Menambahkan konteks ke data
Arti dari satu titik data bisa sulit ditafsirkan. Membangun konteks di sekitar titik data membantu algoritma serta pakar subjek lebih baik membuat keputusan. Misalnya, fakta bahwa rumah memiliki tiga kamar tidur tidak sendiri memberikan indikasi yang baik tentang harganya. Namun, jika Anda menambahkan konteks dan sekarang tahu bahwa itu berada di lingkungan pinggirian di luar area metropolitan utama di mana usia rata-rata adalah 38, pendapatan rumah tangga rata-rata adalah $ 80.000 dan sekolah berada di persentil ke-20 teratas maka algoritma memiliki lebih banyak informasi untuk mendasarkan keputusannya. Semua konteks ini dapat ditambahkan sebagai input ke model pembelajaran mesin sebagai fitur.
Menggunakan data dan fitur yang bermakna
Meskipun lebih banyak sampel dan fitur data dapat membantu meningkatkan akurasi model, mereka juga dapat memperkenalkan kebisingan karena tidak semua data dan fitur bermakna. Oleh karena itu, penting untuk memahami fitur mana yang paling berdampak pada keputusan yang dibuat oleh algoritma. Menggunakan teknik seperti Permutation Feature Importance (PFI) dapat membantu mengidentifikasi fitur-fitur penting tersebut dan tidak hanya membantu menjelaskan model tetapi juga menggunakan output sebagai metode pemilihan fitur untuk mengurangi jumlah fitur berisik yang masuk ke proses pelatihan.
Untuk informasi selengkapnya tentang menggunakan PFI, lihat Menjelaskan prediksi model menggunakan Kepentingan Fitur Permutasi.
Validasi silang
Validasi silang adalah teknik evaluasi pelatihan dan model yang membagi data menjadi beberapa partisi dan melatih beberapa algoritma pada partisi ini. Teknik ini meningkatkan ketahanan model dengan menahan data dari proses pelatihan. Selain meningkatkan performa pada pengamatan yang tidak terlihat, di lingkungan yang dibatasi data dapat menjadi alat yang efektif untuk melatih model dengan himpunan data yang lebih kecil.
Kunjungi tautan berikut untuk mempelajari cara menggunakan validasi silang di ML.NET
Penyetelan hiperparameter
Melatih model pembelajaran mesin adalah proses berulang dan eksploratif. Misalnya, berapa jumlah kluster optimal saat melatih model menggunakan algoritma K-Means? Jawabannya tergantung pada banyak faktor seperti struktur data. Menemukan angka tersebut akan memerlukan eksperimen dengan nilai yang berbeda untuk k dan kemudian mengevaluasi performa untuk menentukan nilai mana yang terbaik. Praktik penyetelan parameter yang memandu proses pelatihan untuk menemukan model optimal dikenal sebagai penyetelan hiperparameter.
Pilih algoritma yang berbeda
Tugas pembelajaran mesin seperti regresi dan klasifikasi berisi berbagai implementasi algoritma. Mungkin saja masalah yang coba Anda selesaikan dan cara data Anda disusun tidak cocok dengan algoritma saat ini. Dalam kasus seperti itu, pertimbangkan untuk menggunakan algoritma yang berbeda untuk tugas Anda untuk melihat apakah tugas tersebut belajar lebih baik dari data Anda.
Tautan berikut ini menyediakan lebih banyak panduan tentang algoritma mana yang akan dipilih.