Bagikan melalui


Hutan Keputusan Multiclass

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model klasifikasi multiclass menggunakan algoritma hutan keputusan

Kategori: Pembelajaran Mesin / Inisialisasi Model / Klasifikasi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Multiclass Decision Forest di Pembelajaran Mesin Studio (klasik), untuk membuat model pembelajaran mesin berdasarkan algoritma hutan keputusan. Hutan keputusan adalah model ansambel yang sangat cepat membangun serangkaian pohon keputusan, sambil belajar dari data yang ditandai.

Lebih lanjut tentang hutan keputusan

Algoritma hutan keputusan adalah metode pembelajaran ensamble untuk klasifikasi. Algoritma ini bekerja dengan cara membangun beberapa pohon keputusan, kemudian memungut suara pada kelas output paling populer. Pemungutan suara merupakan bentuk agregasi, di mana setiap pohon dalam hutan keputusan klasifikasi menghasilkan output histogram frekuensi label yang tidak dinormalisasi. Proses agregasi menjumlahkan histogram ini dan menormalkan hasilnya untuk mendapatkan "probabilitas" untuk setiap label. Pohon yang memiliki keyakinan prediksi yang tinggi memiliki bobot yang lebih besar pada keputusan akhir ensambel.

Pohon keputusan secara umum merupakan model non-parametrik. Artinya, pohon keputusan mendukung data dengan distribusi yang bervariasi. Di setiap pohon, serangkaian pengujian sederhana dijalankan untuk setiap kelas, meningkatkan tingkat struktur pohon hingga node daun (keputusan) telah dicapai.

Pohon keputusan memiliki berbagai keuntungan:

  • Pohon keputusan dapat mewakili batas keputusan non-linier.
  • Pohon keputusan efisien dalam komputasi dan penggunaan memori selama pelatihan dan prediksi.
  • Pohon keputusan melakukan pemilihan dan klasifikasi fitur terintegrasi.
  • Pohon keputusan tangguh di hadapan fitur yang ramai.

Pengklasifikasi hutan keputusan di Pembelajaran Mesin Studio (klasik) terdiri dari ansambel pohon keputusan. Secara umum,.model ensambel memberikan cakupan dan akurasi yang lebih baik dibandingkan dengan pohon keputusan tunggal. Untuk informasi lebih lanjut, lihat Pohon keputusan.

Cara mengonfigurasi Hutan Keputusan Multikelas

Tip

Jika Anda tidak yakin dengan parameter terbaik, kami sarankan Anda menggunakan modul Tune Model Hyperparameters untuk melatih dan menguji beberapa model dan menemukan parameter yang optimal.

  1. Tambahkan modul Multiclass Decision Forest ke eksperimen Anda di Studio (klasik). Anda dapat menemukan modul ini pada Machine Learning, Inisialisasi Model, dan Klasifikasi.

  2. Klik dua kali modul untuk membuka panel Properti.

  3. Untuk Metode pengambilan ulang sampel, pilih metode yang digunakan untuk membuat pohon individu. Anda dapat memilih dari bagging atau replikasi.

    • Bagging: Bagging juga disebut agregasi bootstrap. Dalam metode ini, setiap pohon ditumbuhkan pada sampel baru, dibuat dengan mengambil sampel secara acak himpunan data asli dengan pengganti hingga Anda memiliki himpunan data seukuran aslinya. Output model digabungkan dengan pemungutan suara, yang merupakan bentuk agregasi. Untuk informasi selengkapnya, lihat entri Wikipedia untuk agregasi Bootstrap.

    • Replikasi: Dalam replikasi, setiap pohon dilatih pada data input yang sama persis. Penentuan predikat pemisah mana yang digunakan untuk setiap node pohon tetap acak, membuat pohon yang beragam.

    Lihat bagian Cara Mengonfigurasi Model Hutan Keputusan Multiclass untuk panduan.

  4. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Parameter Tunggal: Pilih opsi ini jika Anda tahu bagaimana Anda akan mengonfigurasi model tersebut, dan menyediakan set nilai sebagai argumen.

    • Rentang Parameter: Gunakan opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menggunakan sapuan parameter.

  5. Jumlah pohon keputusan: Ketikkan jumlah maksimum pohon keputusan yang dapat dibuat dalam ensambel. Dengan membuat lebih banyak pohon keputusan, Anda berpotensi mendapatkan cakupan yang lebih baik, tetapi waktu pelatihan dapat meningkat.

    Nilai ini juga mengontrol jumlah pohon yang ditampilkan dalam hasil, saat memvisualisasikan model terlatih. Untuk melihat atau mencetak satu pohon, Anda dapat mengatur nilainya menjadi 1; namun, ini berarti bahwa hanya satu pohon yang dapat diproduksi (pohon dengan set parameter awal), dan tidak ada iterasi lebih lanjut yang dilakukan.

  6. Kedalaman maksimum pohon keputusan: Ketikkan angkat untuk membatasi kedalaman maksimum semua pohon keputusan. Meningkatkan kedalaman pohon dapat meningkatkan presisi, dengan risiko overfitting dan peningkatan waktu pelatihan.

  7. Jumlah pemisah acak per node: Ketikkan jumlah pemisah yang digunakan ketika membangun setiap node pohon. Pemisah artinya fitur di setiap tingkat pohon (node) dibagi secara acak.

  8. Jumlah minimum sampel per node daun: Menandakan jumlah minimum kasus yang diperlukan untuk membuat setiap node (daun) terminal di pohon. Dengan meningkatkan nilai ini, Anda meningkatkan ambang batas untuk membuat aturan baru.

    Misalnya, dengan nilai default 1, bahkan satu kasus dapat menyebabkan aturan baru dibuat. Jika Anda meningkatkan nilai menjadi 5, data pelatihan harus berisi setidaknya 5 kasus yang memenuhi kondisi yang sama.

  9. Mengizinkan nilai yang tidak diketahui untuk fitur kategoris: Pilih opsi ini untuk membuat grup untuk nilai yang tidak diketahui dalam kumpulan pelatihan atau validasi. Model mungkin kurang tepat untuk nilai yang diketahui, tetapi dapat memberikan prediksi yang lebih baik untuk nilai baru (tidak diketahui).

    Jika Anda membatalkan pilihan opsi ini, model hanya dapat menerima nilai yang ada dalam data pelatihan.

  10. Koneksi datset berlabel, dan salah satu modul pelatihan:

    • Jika Anda mengatur Buat mode pelatih keParameter Tunggal, gunakan modul Model Kereta.

    • Jika Anda mengatur opsi Buat mode pelatih ke Rentang Parameter, gunakan modul Tune Model Hyperparameters . Dengan opsi ini, pelatih dapat berulang atas beberapa kombinasi pengaturan dan menentukan nilai parameter yang menghasilkan model terbaik.

    Catatan

    Jika Anda meneruskan rentang parameter ke Model Kereta Api, ini hanya menggunakan nilai pertama dalam daftar rentang parameter.

    Jika Anda meneruskan satu set nilai parameter ke modul Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, ini mengabaikan nilai dan menggunakan nilai default untuk orang yang belajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa pun, nilai tunggal yang Anda tentukan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  11. Jalankan eksperimen.

Hasil

Setelah pelatihan selesai:

  • Untuk melihat pohon yang dibuat pada setiap iterasi, klik kanan modul Train Model dan pilih Model terlatih untuk memvisualisasikan. Jika Anda menggunakan Tune Model Hyperparameters, klik kanan modul dan pilih Model terbaik terlatih untuk memvisualisasikan model terbaik. Untuk melihat aturan untuk setiap node, klik setiap pohon untuk menelusuri ke dalam perpecahan.

Contoh

Untuk contoh bagaimana hutan keputusan digunakan dalam pembelajaran mesin, lihat Galeri AI Azure:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Detail implementasi

Setiap pohon dalam keputusan klasifikasi hutan menghasilkan histogram frekuensi label yang tidak dinormalisasi. Agregasi adalah untuk menjumlahkan histogram ini dan menormalkan untuk mendapatkan "probabilitas" untuk setiap label. Dengan cara ini, pohon-pohon yang memiliki kepercayaan prediksi tinggi memiliki bobot yang lebih besar dalam keputusan akhir ansambel.

Untuk informasi selengkapnya tentang proses pelatihan dengan opsi Replikasi , lihat:

Cara Mengkonfigurasi Model Hutan Keputusan Multiclass

Anda dapat mengubah cara modul dikonfigurasi untuk mengakomodasi skenario seperti terlalu sedikit data, atau waktu terbatas untuk pelatihan.

Waktu pelatihan terbatas

Jika set pelatihan berisi sejumlah besar instans, tetapi waktu yang Anda miliki untuk melatih model terbatas, coba gunakan opsi ini:

  • Buat hutan keputusan yang menggunakan jumlah pohon keputusan yang lebih kecil (misalnya, 5-10).
  • Gunakan opsi Replikasi untuk resampling.
  • Tentukan jumlah split acak yang lebih kecil per node (misalnya, kurang dari 100).

Set pelatihan terbatas

Jika kumpulan pelatihan berisi sejumlah instans, coba gunakan opsi berikut:

  • Buat hutan keputusan yang menggunakan sejumlah besar pohon keputusan (misalnya, lebih dari 20).
  • Gunakan opsi Bagging untuk resampling.
  • Tentukan sejumlah besar split acak per node (misalnya, lebih dari 1.000).

Parameter modul

Nama Rentang Jenis Default Deskripsi
Metode resampling Semua ResamplingMethod Mengantongi Memilih metode resampling: Mengantongi atau Mereplikasi
Jumlah pohon keputusan >=1 Bilangan bulat 8 Tentukan jumlah pohon keputusan yang harus dibuat dalam ansambel
Kedalaman maksimum pohon keputusan >=1 Bilangan bulat 32 Tentukan kedalaman maksimum dari setiap pohon keputusan yang dapat dibuat
Jumlah split acak per node >=1 Bilangan bulat 128 Tentukan jumlah split yang dihasilkan per node, dari mana split optimal dipilih
Jumlah minimum sampel per simpul daun >=1 Bilangan bulat 1 Tentukan jumlah minimum sampel pelatihan yang diperlukan untuk menghasilkan simpul daun
Mengizinkan nilai yang tidak diketahui untuk fitur kategoris Apa pun Boolean True Menunjukkan apakah nilai yang tidak diketahui dari fitur kategoris yang ada dapat dipetakan ke fitur baru dan tambahan

Output

Nama Jenis Deskripsi
Model tak terlatih Antarmuka ILearner Model klasifikasi multiclass yang tidak terlatih

Lihat juga

Klasifikasi
Hutan Keputusan Dua Kelas
Regresi Hutan Keputusan
Daftar Modul A-Z