Cara memilih algoritma untuk Azure Machine Learning
Jika Anda bertanya-tanya algoritma pembelajaran mesin mana yang akan digunakan, jawabannya terutama tergantung pada dua aspek skenario ilmu data Anda:
Apa yang ingin Anda lakukan dengan data Anda? Secara khusus, apa pertanyaan bisnis yang ingin Anda jawab dengan belajar dari data masa lalu Anda?
Apa saja persyaratan skenario ilmu data Anda? Apa saja fitur, akurasi, waktu pelatihan, linieritas, dan parameter yang didukung solusi Anda?
Catatan
Perancang Azure Pembelajaran Mesin mendukung dua jenis komponen: komponen bawaan klasik (v1) dan komponen kustom (v2). Kedua jenis komponen ini TIDAK kompatibel.
Komponen bawaan klasik terutama untuk pemrosesan data dan tugas pembelajaran mesin tradisional seperti regresi dan klasifikasi. Jenis komponen ini terus didukung tetapi tidak akan ada komponen baru yang ditambahkan.
Komponen kustom memungkinkan Anda membungkus kode Anda sendiri sebagai komponen. Mereka mendukung komponen berbagi di seluruh ruang kerja dan penulisan tanpa hambatan di seluruh antarmuka Studio, CLI v2, dan SDK v2.
Untuk proyek baru, kami sangat menyarankan agar Anda menggunakan komponen kustom, yang kompatibel dengan AzureML V2 dan akan terus menerima pembaruan baru.
Artikel ini berlaku untuk komponen bawaan klasik dan tidak kompatibel dengan CLI v2 dan SDK v2.
Lembar Cheat Algoritma Azure Machine Learning
Cheat Sheet Algoritma Azure Pembelajaran Mesin membantu Anda dengan pertimbangan pertama: Apa yang ingin Anda lakukan dengan data Anda? Pada contekan, cari tugas yang ingin Anda lakukan lalu temukan algoritma perancang Azure Pembelajaran Mesin untuk solusi analitik prediktif.
Catatan
Anda dapat mengunduh Pembelajaran Mesin Algoritma Cheat Sheet.
Perancang menyediakan portofolio algoritma yang komprehensif, seperti Hutan Keputusan Multikelas, sistem Rekomendasi, Regresi Jaringan Neural, Jaringan Neural Multikelas, dan Pengklusteran K-Means. Setiap algoritma dirancang untuk mengatasi berbagai jenis masalah pembelajaran mesin. Lihat algoritma dan referensi komponen untuk daftar lengkap bersama dengan dokumentasi tentang cara kerja setiap algoritma dan cara menyetel parameter untuk mengoptimalkan algoritma.
Seiring dengan panduan ini, ingatlah persyaratan lain saat memilih algoritma pembelajaran mesin. Berikut adalah faktor tambahan yang perlu dipertimbangkan, seperti akurasi, waktu pelatihan, linieritas, jumlah parameter dan jumlah fitur.
Perbandingan algoritma pembelajaran mesin
Beberapa algoritma membuat asumsi tertentu tentang struktur data atau hasil yang diinginkan. Jika Anda dapat menemukan yang sesuai dengan kebutuhan Anda, itu dapat memberi Anda hasil yang lebih berguna, prediksi yang lebih akurat, atau waktu pelatihan yang lebih cepat.
Tabel berikut ini merangkum beberapa karakteristik algoritma yang paling penting dari keluarga klasifikasi, regresi, dan pengelompokan:
Algorithm | Akurasi | Waktu Pelatihan | Linearitas | Parameter | Catatan |
---|---|---|---|---|---|
Keluarga klasifikasi | |||||
Regresi Logistik Dua Kelas | Baik | Cepat | Ya | 4 | |
Hutan keputusan dua Kelas | Baik Sekali | Sedang | No | 5 | Memperlihatkan waktu penilaian yang lebih lambat. Kami menyarankan untuk tidak bekerja dengan Multikelas Satu-vs-Semua, karena waktu penilaian yang lebih lambat yang disebabkan oleh penguncian utas dalam akumulasi prediksi pohon |
Pohon keputusan yang didorong dua Kelas | Baik Sekali | Sedang | No | 6 | Jejak memori besar |
Jaringan neural dua kelas | Baik | Sedang | No | 8 | |
Perceptron rata-rata dua kelas | Baik | Sedang | Ya | 4 | |
Mesin vektor dukungan dua kelas | Baik | Cepat | Ya | 5 | Bagus untuk set fitur besar |
Regresi logistik multikelas | Baik | Cepat | Ya | 4 | |
Hutan keputusan multikelas | Baik Sekali | Sedang | No | 5 | Memperlihatkan waktu penilaian yang lebih lambat |
Pohon keputusan multikelas yang ditingkatkan | Baik Sekali | Sedang | No | 6 | Cenderung meningkatkan akurasi dengan beberapa risiko kecil pada cakupan yang lebih sedikit |
Jaringan neural Multikelas | Baik | Sedang | No | 8 | |
Multikelas one-vs-all | - | - | - | - | Lihat properti dari metode dua kelas yang dipilih |
Keluarga regresi | |||||
Regresi Linear | Baik | Cepat | Ya | 4 | |
Regresi hutan keputusan | Baik Sekali | Sedang | No | 5 | |
Regresi pohon keputusan yang ditingkatkan | Baik Sekali | Sedang | No | 6 | Jejak memori besar |
Regresi jaringan neural | Baik | Sedang | No | 8 | |
Keluarga pengklusteran | |||||
Pengklusteran K-means | Baik Sekali | Sedang | Ya | 8 | Algoritma pengklusteran |
Persyaratan skenario ilmu data
Setelah mengetahui apa yang ingin Anda lakukan dengan data, Anda perlu menentukan persyaratan lain untuk skenario ilmu data Anda.
Buat pilihan dan mungkin kemungkinan konsekuensi untuk persyaratan berikut:
- Akurasi
- Waktu Pelatihan
- Linearitas
- Jumlah parameter
- Jumlah fitur
Akurasi
Akurasi dalam pembelajaran mesin mengukur efektivitas model sebagai proporsi hasil yang benar untuk total kasus. Dalam perancang, komponen Evaluasi Model menghitung serangkaian metrik evaluasi standar industri. Anda dapat menggunakan komponen ini untuk mengukur akurasi model terlatih.
Mendapatkan jawaban yang paling akurat mungkin tidak selalu diperlukan. Terkadang perkiraan memadai, tergantung pada apa yang ingin Anda gunakan. Jika demikian, Anda mungkin dapat memotong waktu pemrosesan Anda secara dramatis dengan menempel dengan lebih banyak metode perkiraan. Metode perkiraan juga secara alami cenderung menghindari overfitting.
Ada tiga cara untuk menggunakan komponen Model Evaluasi:
- Hasilkan skor atas data pelatihan Anda untuk mengevaluasi model.
- Hasilkan skor pada model, tetapi bandingkan skor tersebut dengan skor pada set pengujian yang dipesan.
- Bandingkan skor untuk dua model berbeda tetapi terkait, menggunakan kumpulan data yang sama.
Untuk daftar lengkap metrik dan pendekatan yang dapat Anda gunakan untuk mengevaluasi keakuratan model pembelajaran mesin, lihat komponen Model Evaluasi.
Waktu Pelatihan
Dalam pembelajaran yang diawasi, pelatihan berarti menggunakan data historis untuk membangun model pembelajaran mesin yang meminimalkan kesalahan. Jumlah menit atau jam yang diperlukan untuk melatih model sangat bervariasi di antara algoritma. Waktu pelatihan sering terkait erat dengan akurasi; yang biasanya menyertai yang lain.
Selain itu, beberapa algoritma lebih sensitif terhadap jumlah titik data daripada yang lain. Anda mungkin memilih algoritma tertentu karena Anda memiliki batasan waktu, terutama ketika himpunan data yang besar.
Dalam perancang, membuat dan menggunakan model pembelajaran mesin biasanya merupakan proses tiga langkah:
Konfigurasikan model, dengan memilih jenis algoritma tertentu, lalu definisikan parameter atau hyperparameternya.
Berikan himpunan data yang diberi label dan memiliki data yang kompatibel dengan algoritma. Sambungkan data dan model ke komponen Latih Model.
Setelah pelatihan selesai, gunakan model terlatih dengan salah satu komponen penilaian, untuk membuat prediksi pada data baru.
Linearitas
Linieritas dalam statistik dan pembelajaran mesin berarti bahwa ada hubungan linier antara variabel dan konstanta dalam himpunan data Anda. Misalnya, algoritma klasifikasi linear mengasumsikan bahwa class dapat dipisahkan oleh garis lurus (atau analognya yang lebih tinggi dimensinya).
Banyak algoritma pembelajaran mesin memanfaatkan linieritas. Di perancang Azure Machine Learning, mereka meliputi:
Algoritma regresi linear mengasumsikan bahwa tren data mengikuti garis lurus. Asumsi ini tidak buruk untuk beberapa masalah, tetapi bagi yang lain itu mengurangi akurasi. Terlepas dari kekurangannya, algoritma linier populer sebagai strategi pertama. Mereka cenderung secara algoritma sederhana dan cepat untuk melatih.
Batas kelas tidak linier: Mengandalkan algoritma klasifikasi linier akan mengakibatkan akuraasi rendah.
Data dengan tren tidak linier: Menggunakan metode regresi linier akan menghasilkan kesalahan lebih besar yang tidak diperlukan.
Jumlah parameter
Parameter adalah kenop yang harus diubah oleh ilmuwan data saat menyiapkan algoritma. Mereka adalah angka yang memengaruhi perilaku algoritma, seperti toleransi kesalahan atau jumlah perulangan, atau opsi antara varian perilaku algoritma. Waktu pelatihan dan akurasi algoritma kadang-kadang bisa sensitif untuk mendapatkan pengaturan yang tepat. Biasanya, algoritma dengan sejumlah besar parameter membutuhkan uji coba dan kesalahan terbanyak untuk menemukan kombinasi yang baik.
Atau, ada komponen Tune Model Hyperparameters dalam perancang. Tujuan dari komponen ini adalah untuk menentukan hiperparameter optimal untuk model pembelajaran mesin. Komponen ini membangun dan menguji beberapa model dengan menggunakan kombinasi pengaturan yang berbeda. Hal tersebut membandingkan metrik di semua model untuk mendapatkan kombinasi pengaturan.
Meskipun ini adalah cara yang bagus untuk memastikan Anda membentangani ruang parameter, waktu yang diperlukan untuk melatih model meningkat secara eksponensial dengan jumlah parameter. Yang terbalik adalah bahwa memiliki banyak parameter biasanya menunjukkan bahwa algoritma memiliki fleksibilitas yang lebih besar. Hal tersebut sering dapat mencapai akurasi yang sangat baik, asalkan Anda dapat menemukan kombinasi pengaturan parameter yang tepat.
Jumlah fitur
Dalam pembelajaran mesin, fitur adalah variabel fenomena yang dapat diukur yang coba Anda analisis. Untuk jenis data tertentu, jumlah fitur bisa sangat besar dibandingkan dengan jumlah poin data. Ini sering terjadi dengan genetika atau data tekstual.
Baynyak fitur yang dapat mengurangi beberapa algoritma pembelajaran, membuat waktu pelatihan tidak terlalu lama. Mesin vektor dukungan sangat cocok untuk skenario dengan jumlah fitur yang tinggi. Untuk alasan ini, mereka telah digunakan dalam banyak aplikasi dari pengambilan informasi hingga klasifikasi teks dan gambar. Mesin vektor pendukung dapat digunakan untuk tugas klasifikasi dan regresi.
Pemilihan fitur mengacu pada proses penerapan tes statistik ke input, diberikan output yang ditentukan. Tujuannya adalah untuk menentukan kolom mana yang bersifat prediktif dari output yang dihasilkan. Komponen Pemilihan Fitur Berbasis Filter dalam perancang menyediakan beberapa algoritma pemilihan fitur untuk dipilih. Komponen ini mencakup metode korelasi seperti korelasi Pearson dan nilai chi kuadrat.
Anda juga dapat menggunakan komponen Kepentingan Fitur Permutasi untuk menghitung serangkaian skor penting fitur untuk himpunan data Anda. Anda kemudian dapat menggunakan skor ini untuk membantu Anda menentukan fitur terbaik untuk digunakan dalam model.