Bagikan melalui


Cara memilih algoritma untuk Azure Machine Learning

Penting

Artikel ini memberikan informasi tentang penggunaan Azure Machine Learning SDK v1. SDK v1 tidak digunakan lagi per 31 Maret 2025. Dukungan untuk itu akan berakhir pada 30 Juni 2026. Anda dapat menginstal dan menggunakan SDK v1 hingga tanggal tersebut. Alur kerja Anda yang sudah ada menggunakan SDK v1 akan terus beroperasi setelah tanggal akhir dukungan. Namun, mereka dapat terkena risiko keamanan atau perubahan yang merusak jika terjadi perubahan arsitektur pada produk.

Kami merekomendasikan agar Anda beralih ke SDK v2 sebelum 30 Juni 2026. Untuk informasi selengkapnya tentang SDK v2, lihat Apa itu Azure Machine Learning CLI dan Python SDK v2? dan referensi SDK v2.

Jika Anda bertanya-tanya algoritma pembelajaran mesin mana yang akan digunakan, jawabannya terutama tergantung pada dua aspek skenario ilmu data Anda:

  • Apa yang ingin Anda lakukan dengan data Anda? Secara khusus, apa pertanyaan bisnis yang ingin Anda jawab dengan belajar dari data masa lalu Anda?

  • Apa saja persyaratan skenario ilmu data Anda? Apa saja fitur, akurasi, waktu pelatihan, linieritas, dan parameter yang didukung solusi Anda?

Diagram yang menunjukkan pertimbangan untuk memilih algoritma pembelajaran mesin.

Catatan

Perancang Azure Pembelajaran Mesin mendukung dua jenis komponen: komponen bawaan klasik (v1) dan komponen kustom (v2). Kedua jenis komponen ini TIDAK kompatibel.

Komponen bawaan klasik terutama untuk pemrosesan data dan tugas pembelajaran mesin tradisional seperti regresi dan klasifikasi. Jenis komponen ini terus didukung tetapi tidak akan memiliki komponen baru yang ditambahkan.

Komponen kustom memungkinkan Anda membungkus kode Anda sendiri sebagai komponen. Mereka mendukung komponen berbagi di seluruh ruang kerja dan penulisan tanpa hambatan di seluruh antarmuka Studio, CLI v2, dan SDK v2.

Untuk proyek baru, kami sangat menyarankan Anda menggunakan komponen kustom, yang kompatibel dengan AzureML V2 dan akan menerima pembaruan baru.

Artikel ini berlaku untuk komponen bawaan klasik dan tidak kompatibel dengan CLI v2 dan SDK v2.

Lembar Cheat Algoritma Azure Machine Learning

Cheat Sheet Algoritma Azure Pembelajaran Mesin membantu Anda dengan pertimbangan pertama: Apa yang ingin Anda lakukan dengan data Anda? Pada contekan, cari tugas yang ingin Anda lakukan lalu temukan algoritma perancang Azure Pembelajaran Mesin untuk solusi analitik prediktif.

Catatan

Anda dapat mengunduh Pembelajaran Mesin Algoritma Cheat Sheet.

Perancang menyediakan portofolio algoritma yang komprehensif, termasuk:

Setiap algoritma dirancang untuk mengatasi berbagai jenis masalah pembelajaran mesin. Untuk daftar lengkap bersama dengan dokumentasi tentang cara kerja setiap algoritma dan cara menyetel parameter untuk mengoptimalkan algoritma, lihat algoritma dan referensi komponen.

Seiring dengan panduan ini, ingatlah persyaratan lain saat Anda memilih algoritma pembelajaran mesin. Berikut ini adalah faktor lain yang perlu dipertimbangkan, seperti akurasi, waktu pelatihan, linieritas, jumlah parameter, dan jumlah fitur.

Perbandingan algoritma pembelajaran mesin

Beberapa algoritma membuat asumsi tertentu tentang struktur data atau hasil yang diinginkan. Jika Anda dapat menemukan yang sesuai dengan kebutuhan Anda, itu dapat memberikan hasil yang lebih berguna, prediksi yang lebih akurat, atau waktu pelatihan yang lebih cepat.

Tabel berikut ini merangkum beberapa karakteristik algoritma yang paling penting dari keluarga klasifikasi, regresi, dan pengelompokan:

Algoritma Akurasi Waktu Pelatihan Linearitas Parameter Catatan
Keluarga klasifikasi
Regresi Logistik Dua Kelas Baik Cepat Ya 4
Hutan keputusan dua Kelas Baik Sekali Sedang Tidak. 5 Memperlihatkan waktu penilaian yang lebih lambat. Kami menyarankan untuk tidak bekerja dengan One-vs-All Multiclass, karena waktu yang dibutuhkan untuk penilaian menjadi lebih lambat disebabkan oleh penguncian thread dalam proses akumulasi prediksi pohon.
Pohon keputusan yang didorong dua Kelas Baik Sekali Sedang Tidak. 6 Jejak memori besar
Jaringan neural dua kelas Baik Sedang Tidak. 8
Perceptron rata-rata dua kelas Baik Sedang Ya 4
Mesin vektor dukungan dua kelas Baik Cepat Ya 5 Bagus untuk set fitur besar
Regresi logistik multikelas Baik Cepat Ya 4
Hutan keputusan multikelas Baik Sekali Sedang Tidak. 5 Memperlihatkan waktu penilaian yang lebih lambat
Pohon keputusan multikelas yang ditingkatkan Baik Sekali Sedang Tidak. 6 Cenderung meningkatkan akurasi dengan beberapa risiko kecil pada cakupan yang lebih sedikit
Jaringan neural Multikelas Baik Sedang Tidak. 8
Multikelas one-vs-all - - - - Lihat properti dari metode dua kelas yang dipilih
Keluarga regresi
Regresi Linear Baik Cepat Ya 4
Regresi hutan keputusan Baik Sekali Sedang Tidak. 5
Regresi pohon keputusan yang ditingkatkan Baik Sekali Sedang Tidak. 6 Jejak memori besar
Regresi jaringan neural Baik Sedang Tidak. 8
Keluarga pengklusteran
Pengklusteran K-means Baik Sekali Sedang Ya 8 Algoritma pengklusteran

Persyaratan skenario ilmu data

Setelah mengetahui apa yang ingin Anda lakukan dengan data, Anda perlu menentukan persyaratan lain untuk skenario ilmu data Anda.

Buat pilihan dan mungkin kemungkinan konsekuensi untuk persyaratan berikut:

  • Akurasi
  • Waktu Pelatihan
  • Linearitas
  • Jumlah parameter
  • Jumlah fitur

Akurasi

Akurasi dalam pembelajaran mesin mengukur efektivitas model sebagai proporsi hasil yang benar untuk total kasus. Dalam perancang, komponen Evaluasi Model menghitung serangkaian metrik evaluasi standar industri. Anda dapat menggunakan komponen ini untuk mengukur akurasi model terlatih.

Mendapatkan jawaban yang paling akurat mungkin tidak selalu diperlukan. Terkadang perkiraan memadai, tergantung pada apa yang ingin Anda gunakan. Jika demikian, Anda mungkin dapat memotong waktu pemrosesan Anda secara dramatis dengan menempel dengan lebih banyak metode perkiraan. Metode perkiraan juga secara alami cenderung menghindari overfitting.

Ada tiga cara untuk menggunakan komponen Model Evaluasi:

  • Hasilkan skor atas data pelatihan Anda untuk mengevaluasi model.
  • Hasilkan skor pada model, tetapi bandingkan skor tersebut dengan skor pada set pengujian yang dipesan.
  • Bandingkan skor untuk dua model berbeda tetapi terkait, menggunakan kumpulan data yang sama.

Untuk daftar lengkap metrik dan pendekatan yang dapat Anda gunakan untuk mengevaluasi keakuratan model pembelajaran mesin, lihat komponen Model Evaluasi.

Waktu Pelatihan

Dalam pembelajaran yang diawasi, pelatihan berarti menggunakan data historis untuk membangun model pembelajaran mesin yang meminimalkan kesalahan. Jumlah menit atau jam yang diperlukan untuk melatih model sangat bervariasi di antara algoritma. Waktu pelatihan sering terkait erat dengan akurasi; yang biasanya menyertai yang lain.

Selain itu, beberapa algoritma lebih sensitif terhadap jumlah titik data daripada yang lain. Anda mungkin memilih algoritma tertentu karena Anda memiliki batasan waktu, terutama ketika himpunan data yang besar.

Dalam perancang, membuat dan menggunakan model pembelajaran mesin biasanya merupakan proses tiga langkah:

  1. Konfigurasikan model, dengan memilih jenis algoritma tertentu, lalu definisikan parameter atau hyperparameternya.

  2. Berikan himpunan data yang diberi label dan memiliki data yang kompatibel dengan algoritma. Sambungkan data dan model ke komponen Latih Model.

  3. Setelah pelatihan selesai, gunakan model terlatih dengan salah satu komponen penilaian, untuk membuat prediksi pada data baru.

Linearitas

Linieritas dalam statistik dan pembelajaran mesin berarti bahwa ada hubungan linier antara variabel dan konstanta dalam himpunan data Anda. Misalnya, algoritma klasifikasi linier mengasumsikan bahwa garis lurus atau analog dimensinya yang lebih tinggi dapat memisahkan kelas.

Banyak algoritma pembelajaran mesin memanfaatkan linieritas. Di perancang Azure Machine Learning, mereka meliputi:

Algoritma regresi linear mengasumsikan bahwa tren data mengikuti garis lurus. Asumsi ini tidak buruk untuk beberapa masalah, tetapi bagi yang lain itu mengurangi akurasi. Terlepas dari kekurangannya, algoritma linier populer sebagai strategi pertama. Mereka cenderung secara algoritma sederhana dan cepat untuk melatih.

Grafik yang memperlihatkan batas kelas nonlinear.

Batas kelas tidak linier: Mengandalkan algoritma klasifikasi linier akan mengakibatkan akuraasi rendah.

Grafik yang memperlihatkan data dengan tren nonlinear.

Data dengan tren tidak linier: Menggunakan metode regresi linier akan menghasilkan kesalahan lebih besar yang tidak diperlukan.

Jumlah parameter

Parameter adalah kenop yang harus diubah oleh ilmuwan data saat menyiapkan algoritma. Mereka adalah angka yang memengaruhi perilaku algoritma. Contohnya termasuk toleransi kesalahan atau jumlah iterasi, dan opsi antara varian perilaku algoritma.

Waktu pelatihan dan akurasi algoritma bisa sangat dipengaruhi oleh pengaturan yang tepat. Biasanya, algoritma dengan sejumlah besar parameter membutuhkan uji coba dan kesalahan terbanyak untuk menemukan kombinasi yang baik.

Atau, ada komponen Tune Model Hyperparameters dalam perancang. Tujuan dari komponen ini adalah untuk menentukan hiperparameter optimal untuk model pembelajaran mesin. Komponen ini membangun dan menguji beberapa model dengan menggunakan kombinasi pengaturan yang berbeda. Hal tersebut membandingkan metrik di semua model untuk mendapatkan kombinasi pengaturan.

Meskipun pendekatan ini merupakan cara yang efektif untuk memastikan Anda menjelajahi ruang parameterisasi, waktu yang diperlukan untuk melatih model meningkat secara eksponensial seiring dengan bertambahnya jumlah parameter. Yang terbalik adalah bahwa memiliki banyak parameter biasanya menunjukkan bahwa algoritma memiliki fleksibilitas yang lebih besar. Hal tersebut sering dapat mencapai akurasi yang sangat baik, asalkan Anda dapat menemukan kombinasi pengaturan parameter yang tepat.

Jumlah fitur

Dalam pembelajaran mesin, fitur adalah variabel fenomena yang dapat diukur yang coba Anda analisis. Untuk jenis data tertentu, jumlah fitur bisa sangat besar dibandingkan dengan jumlah poin data. Situasi ini sering terjadi dengan genetika atau data tekstual.

Baynyak fitur yang dapat mengurangi beberapa algoritma pembelajaran, membuat waktu pelatihan tidak terlalu lama. Mesin vektor dukungan sangat cocok untuk skenario dengan jumlah fitur yang tinggi. Untuk alasan ini, aplikasi digunakan dalam banyak aplikasi dari pengambilan informasi hingga klasifikasi teks dan gambar. Mesin vektor pendukung dapat digunakan untuk tugas klasifikasi dan regresi.

Pemilihan fitur mengacu pada proses penerapan tes statistik ke input, diberikan output yang ditentukan. Tujuannya adalah untuk menentukan kolom mana yang bersifat prediktif dari output yang dihasilkan. Komponen Pemilihan Fitur Berbasis Filter dalam perancang menyediakan beberapa algoritma pemilihan fitur untuk dipilih. Komponen ini mencakup metode korelasi seperti korelasi Pearson dan nilai chi kuadrat.

Anda juga dapat menggunakan komponen Kepentingan Fitur Permutasi untuk menghitung serangkaian skor penting fitur untuk himpunan data Anda. Anda kemudian dapat menggunakan skor ini untuk membantu Anda menentukan fitur terbaik untuk digunakan dalam model.