Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Penting
Artikel ini memberikan informasi tentang penggunaan Azure Machine Learning SDK v1. SDK v1 tidak digunakan lagi per 31 Maret 2025. Dukungan untuk itu akan berakhir pada 30 Juni 2026. Anda dapat menginstal dan menggunakan SDK v1 hingga tanggal tersebut. Alur kerja Anda yang sudah ada menggunakan SDK v1 akan terus beroperasi setelah tanggal akhir dukungan. Namun, mereka dapat terkena risiko keamanan atau perubahan yang merusak jika terjadi perubahan arsitektur pada produk.
Kami merekomendasikan agar Anda beralih ke SDK v2 sebelum 30 Juni 2026. Untuk informasi selengkapnya tentang SDK v2, lihat Apa itu Azure Machine Learning CLI dan Python SDK v2? dan referensi SDK v2.
Jika Anda bertanya-tanya algoritma pembelajaran mesin mana yang akan digunakan, jawabannya terutama tergantung pada dua aspek skenario ilmu data Anda:
Apa yang ingin Anda lakukan dengan data Anda? Secara khusus, apa pertanyaan bisnis yang ingin Anda jawab dengan belajar dari data masa lalu Anda?
Apa saja persyaratan skenario ilmu data Anda? Apa saja fitur, akurasi, waktu pelatihan, linieritas, dan parameter yang didukung solusi Anda?
Catatan
Perancang Azure Pembelajaran Mesin mendukung dua jenis komponen: komponen bawaan klasik (v1) dan komponen kustom (v2). Kedua jenis komponen ini TIDAK kompatibel.
Komponen bawaan klasik terutama untuk pemrosesan data dan tugas pembelajaran mesin tradisional seperti regresi dan klasifikasi. Jenis komponen ini terus didukung tetapi tidak akan memiliki komponen baru yang ditambahkan.
Komponen kustom memungkinkan Anda membungkus kode Anda sendiri sebagai komponen. Mereka mendukung komponen berbagi di seluruh ruang kerja dan penulisan tanpa hambatan di seluruh antarmuka Studio, CLI v2, dan SDK v2.
Untuk proyek baru, kami sangat menyarankan Anda menggunakan komponen kustom, yang kompatibel dengan AzureML V2 dan akan menerima pembaruan baru.
Artikel ini berlaku untuk komponen bawaan klasik dan tidak kompatibel dengan CLI v2 dan SDK v2.
Lembar Cheat Algoritma Azure Machine Learning
Cheat Sheet Algoritma Azure Pembelajaran Mesin membantu Anda dengan pertimbangan pertama: Apa yang ingin Anda lakukan dengan data Anda? Pada contekan, cari tugas yang ingin Anda lakukan lalu temukan algoritma perancang Azure Pembelajaran Mesin untuk solusi analitik prediktif.
Catatan
Anda dapat mengunduh Pembelajaran Mesin Algoritma Cheat Sheet.
Perancang menyediakan portofolio algoritma yang komprehensif, termasuk:
- Hutan Keputusan Multikelas
- Sistem rekomendasi
- Regresi Jaringan Neural
- Jaringan Neural Multikelas
- Pengklusteran K-Means
Setiap algoritma dirancang untuk mengatasi berbagai jenis masalah pembelajaran mesin. Untuk daftar lengkap bersama dengan dokumentasi tentang cara kerja setiap algoritma dan cara menyetel parameter untuk mengoptimalkan algoritma, lihat algoritma dan referensi komponen.
Seiring dengan panduan ini, ingatlah persyaratan lain saat Anda memilih algoritma pembelajaran mesin. Berikut ini adalah faktor lain yang perlu dipertimbangkan, seperti akurasi, waktu pelatihan, linieritas, jumlah parameter, dan jumlah fitur.
Perbandingan algoritma pembelajaran mesin
Beberapa algoritma membuat asumsi tertentu tentang struktur data atau hasil yang diinginkan. Jika Anda dapat menemukan yang sesuai dengan kebutuhan Anda, itu dapat memberikan hasil yang lebih berguna, prediksi yang lebih akurat, atau waktu pelatihan yang lebih cepat.
Tabel berikut ini merangkum beberapa karakteristik algoritma yang paling penting dari keluarga klasifikasi, regresi, dan pengelompokan:
| Algoritma | Akurasi | Waktu Pelatihan | Linearitas | Parameter | Catatan |
|---|---|---|---|---|---|
| Keluarga klasifikasi | |||||
| Regresi Logistik Dua Kelas | Baik | Cepat | Ya | 4 | |
| Hutan keputusan dua Kelas | Baik Sekali | Sedang | Tidak. | 5 | Memperlihatkan waktu penilaian yang lebih lambat. Kami menyarankan untuk tidak bekerja dengan One-vs-All Multiclass, karena waktu yang dibutuhkan untuk penilaian menjadi lebih lambat disebabkan oleh penguncian thread dalam proses akumulasi prediksi pohon. |
| Pohon keputusan yang didorong dua Kelas | Baik Sekali | Sedang | Tidak. | 6 | Jejak memori besar |
| Jaringan neural dua kelas | Baik | Sedang | Tidak. | 8 | |
| Perceptron rata-rata dua kelas | Baik | Sedang | Ya | 4 | |
| Mesin vektor dukungan dua kelas | Baik | Cepat | Ya | 5 | Bagus untuk set fitur besar |
| Regresi logistik multikelas | Baik | Cepat | Ya | 4 | |
| Hutan keputusan multikelas | Baik Sekali | Sedang | Tidak. | 5 | Memperlihatkan waktu penilaian yang lebih lambat |
| Pohon keputusan multikelas yang ditingkatkan | Baik Sekali | Sedang | Tidak. | 6 | Cenderung meningkatkan akurasi dengan beberapa risiko kecil pada cakupan yang lebih sedikit |
| Jaringan neural Multikelas | Baik | Sedang | Tidak. | 8 | |
| Multikelas one-vs-all | - | - | - | - | Lihat properti dari metode dua kelas yang dipilih |
| Keluarga regresi | |||||
| Regresi Linear | Baik | Cepat | Ya | 4 | |
| Regresi hutan keputusan | Baik Sekali | Sedang | Tidak. | 5 | |
| Regresi pohon keputusan yang ditingkatkan | Baik Sekali | Sedang | Tidak. | 6 | Jejak memori besar |
| Regresi jaringan neural | Baik | Sedang | Tidak. | 8 | |
| Keluarga pengklusteran | |||||
| Pengklusteran K-means | Baik Sekali | Sedang | Ya | 8 | Algoritma pengklusteran |
Persyaratan skenario ilmu data
Setelah mengetahui apa yang ingin Anda lakukan dengan data, Anda perlu menentukan persyaratan lain untuk skenario ilmu data Anda.
Buat pilihan dan mungkin kemungkinan konsekuensi untuk persyaratan berikut:
- Akurasi
- Waktu Pelatihan
- Linearitas
- Jumlah parameter
- Jumlah fitur
Akurasi
Akurasi dalam pembelajaran mesin mengukur efektivitas model sebagai proporsi hasil yang benar untuk total kasus. Dalam perancang, komponen Evaluasi Model menghitung serangkaian metrik evaluasi standar industri. Anda dapat menggunakan komponen ini untuk mengukur akurasi model terlatih.
Mendapatkan jawaban yang paling akurat mungkin tidak selalu diperlukan. Terkadang perkiraan memadai, tergantung pada apa yang ingin Anda gunakan. Jika demikian, Anda mungkin dapat memotong waktu pemrosesan Anda secara dramatis dengan menempel dengan lebih banyak metode perkiraan. Metode perkiraan juga secara alami cenderung menghindari overfitting.
Ada tiga cara untuk menggunakan komponen Model Evaluasi:
- Hasilkan skor atas data pelatihan Anda untuk mengevaluasi model.
- Hasilkan skor pada model, tetapi bandingkan skor tersebut dengan skor pada set pengujian yang dipesan.
- Bandingkan skor untuk dua model berbeda tetapi terkait, menggunakan kumpulan data yang sama.
Untuk daftar lengkap metrik dan pendekatan yang dapat Anda gunakan untuk mengevaluasi keakuratan model pembelajaran mesin, lihat komponen Model Evaluasi.
Waktu Pelatihan
Dalam pembelajaran yang diawasi, pelatihan berarti menggunakan data historis untuk membangun model pembelajaran mesin yang meminimalkan kesalahan. Jumlah menit atau jam yang diperlukan untuk melatih model sangat bervariasi di antara algoritma. Waktu pelatihan sering terkait erat dengan akurasi; yang biasanya menyertai yang lain.
Selain itu, beberapa algoritma lebih sensitif terhadap jumlah titik data daripada yang lain. Anda mungkin memilih algoritma tertentu karena Anda memiliki batasan waktu, terutama ketika himpunan data yang besar.
Dalam perancang, membuat dan menggunakan model pembelajaran mesin biasanya merupakan proses tiga langkah:
Konfigurasikan model, dengan memilih jenis algoritma tertentu, lalu definisikan parameter atau hyperparameternya.
Berikan himpunan data yang diberi label dan memiliki data yang kompatibel dengan algoritma. Sambungkan data dan model ke komponen Latih Model.
Setelah pelatihan selesai, gunakan model terlatih dengan salah satu komponen penilaian, untuk membuat prediksi pada data baru.
Linearitas
Linieritas dalam statistik dan pembelajaran mesin berarti bahwa ada hubungan linier antara variabel dan konstanta dalam himpunan data Anda. Misalnya, algoritma klasifikasi linier mengasumsikan bahwa garis lurus atau analog dimensinya yang lebih tinggi dapat memisahkan kelas.
Banyak algoritma pembelajaran mesin memanfaatkan linieritas. Di perancang Azure Machine Learning, mereka meliputi:
Algoritma regresi linear mengasumsikan bahwa tren data mengikuti garis lurus. Asumsi ini tidak buruk untuk beberapa masalah, tetapi bagi yang lain itu mengurangi akurasi. Terlepas dari kekurangannya, algoritma linier populer sebagai strategi pertama. Mereka cenderung secara algoritma sederhana dan cepat untuk melatih.
Batas kelas tidak linier: Mengandalkan algoritma klasifikasi linier akan mengakibatkan akuraasi rendah.
Data dengan tren tidak linier: Menggunakan metode regresi linier akan menghasilkan kesalahan lebih besar yang tidak diperlukan.
Jumlah parameter
Parameter adalah kenop yang harus diubah oleh ilmuwan data saat menyiapkan algoritma. Mereka adalah angka yang memengaruhi perilaku algoritma. Contohnya termasuk toleransi kesalahan atau jumlah iterasi, dan opsi antara varian perilaku algoritma.
Waktu pelatihan dan akurasi algoritma bisa sangat dipengaruhi oleh pengaturan yang tepat. Biasanya, algoritma dengan sejumlah besar parameter membutuhkan uji coba dan kesalahan terbanyak untuk menemukan kombinasi yang baik.
Atau, ada komponen Tune Model Hyperparameters dalam perancang. Tujuan dari komponen ini adalah untuk menentukan hiperparameter optimal untuk model pembelajaran mesin. Komponen ini membangun dan menguji beberapa model dengan menggunakan kombinasi pengaturan yang berbeda. Hal tersebut membandingkan metrik di semua model untuk mendapatkan kombinasi pengaturan.
Meskipun pendekatan ini merupakan cara yang efektif untuk memastikan Anda menjelajahi ruang parameterisasi, waktu yang diperlukan untuk melatih model meningkat secara eksponensial seiring dengan bertambahnya jumlah parameter. Yang terbalik adalah bahwa memiliki banyak parameter biasanya menunjukkan bahwa algoritma memiliki fleksibilitas yang lebih besar. Hal tersebut sering dapat mencapai akurasi yang sangat baik, asalkan Anda dapat menemukan kombinasi pengaturan parameter yang tepat.
Jumlah fitur
Dalam pembelajaran mesin, fitur adalah variabel fenomena yang dapat diukur yang coba Anda analisis. Untuk jenis data tertentu, jumlah fitur bisa sangat besar dibandingkan dengan jumlah poin data. Situasi ini sering terjadi dengan genetika atau data tekstual.
Baynyak fitur yang dapat mengurangi beberapa algoritma pembelajaran, membuat waktu pelatihan tidak terlalu lama. Mesin vektor dukungan sangat cocok untuk skenario dengan jumlah fitur yang tinggi. Untuk alasan ini, aplikasi digunakan dalam banyak aplikasi dari pengambilan informasi hingga klasifikasi teks dan gambar. Mesin vektor pendukung dapat digunakan untuk tugas klasifikasi dan regresi.
Pemilihan fitur mengacu pada proses penerapan tes statistik ke input, diberikan output yang ditentukan. Tujuannya adalah untuk menentukan kolom mana yang bersifat prediktif dari output yang dihasilkan. Komponen Pemilihan Fitur Berbasis Filter dalam perancang menyediakan beberapa algoritma pemilihan fitur untuk dipilih. Komponen ini mencakup metode korelasi seperti korelasi Pearson dan nilai chi kuadrat.
Anda juga dapat menggunakan komponen Kepentingan Fitur Permutasi untuk menghitung serangkaian skor penting fitur untuk himpunan data Anda. Anda kemudian dapat menggunakan skor ini untuk membantu Anda menentukan fitur terbaik untuk digunakan dalam model.