Bagikan melalui


Hutan Keputusan Multiclass

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model klasifikasi multiclass menggunakan algoritma hutan keputusan

Kategori: Pembelajaran Mesin / Inisialisasi Model / Klasifikasi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Multiclass Decision Jungle di Pembelajaran Mesin Studio (klasik), untuk membuat model pembelajaran mesin yang didasarkan pada algoritma pembelajaran yang diawasi yang disebut hutan keputusan.

Anda menentukan model dan parameternya menggunakan modul ini, lalu menghubungkan kumpulan data pelatihan berlabel untuk melatih model menggunakan salah satu modul pelatihan. Model terlatih dapat digunakan untuk memprediksi target yang memiliki banyak nilai.

Lebih lanjut tentang hutan keputusan

Hutan keputusan adalah perpanjangan baru-baru ini untuk hutan keputusan. Hutan keputusan terdiri dari ansambel keputusan yang diarahkan grafik asiklik (DAGs).

Hutan keputusan memiliki keuntungan sebagai berikut:

  • Dengan membiarkan cabang-cabang pohon bergabung, keputusan DAG biasanya memiliki jejak memori yang lebih rendah dan kinerja generalisasi yang lebih baik daripada pohon keputusan, meskipun dengan mengorbankan waktu pelatihan yang agak lebih tinggi.

  • Hutan keputusan adalah model non-parametrik, yang dapat mewakili batas-batas keputusan non-linear.

  • Pohon keputusan melakukan pemilihan dan klasifikasi fitur terintegrasi dan tangguh di hadapan fitur yang tidak jelas.

Untuk informasi lebih lanjut tentang penelitian di balik algoritma pembelajaran mesin ini, lihat Decision Jungles: Compact and Rich Models for Classification (PDF yang dapat diunduh).

Cara mengonfigurasi Model Jungle Keputusan Multiclass

  1. Tambahkan modul Multiclass Decision Jungle ke eksperimen Anda di Studio (klasik). Anda dapat menemukan modul ini pada Machine Learning, Inisialisasi Model, dan Klasifikasi.

  2. Klik dua kali modul untuk membuka panel Properti.

  3. Metode resampling, pilih metode untuk membuat beberapa pohon, baik mengantongi atau replikasi.

    • Bagging: Pilih opsi ini untuk menggunakan bagging, juga disebut bootstrap aggregating.

      Setiap pohon dalam hutan keputusan menghasilkan distribusi Gaussian dengan cara prediksi. Agregasi adalah untuk menemukan Gaussian yang dua momen pertama cocok dengan saat-saat campuran Gaussians yang diberikan dengan menggabungkan semua Gaussian dikembalikan oleh pohon individu.

    • Replikasi: Pilih opsi ini untuk menggunakan replikasi. Dalam metode ini, setiap pohon dilatih pada data input yang persis sama. Penentuan predikat split mana yang digunakan untuk setiap simpul pohon tetap acak, sehingga beragam pohon dibuat.

  4. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Parameter Tunggal: Gunakan opsi ini saat Anda tahu cara mengonfigurasi model.

    • Rentang Parameter: Gunakan opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menggunakan sapuan parameter.

  5. Jumlah DAGs keputusan: Tunjukkan jumlah maksimum grafik yang dapat dibuat dalam ansambel.

  6. Kedalaman maksimum DAGs keputusan: Tentukan kedalaman maksimum setiap grafik.

  7. Lebar maksimum DAGs keputusan: Tentukan lebar maksimum setiap grafik.

  8. Jumlah langkah pengoptimalan per keputusan lapisan DAG: Tunjukkan berapa banyak iterasi atas data yang harus dilakukan saat membangun setiap DAG.

  9. Mengizinkan nilai yang tidak diketahui untuk fitur kategoris: Pilih opsi ini untuk membuat grup untuk nilai yang tidak diketahui dalam pengujian atau validasi data. Model mungkin kurang tepat untuk nilai yang diketahui, tetapi dapat memberikan prediksi yang lebih baik untuk nilai baru (tidak diketahui).

    Jika Anda membatalkan pilihan opsi ini, model hanya dapat menerima nilai yang ada dalam data pelatihan.

  10. Koneksi dataset berlabel, dan salah satu modul pelatihan:

    • Jika Anda mengatur Buat mode pelatih keParameter Tunggal, gunakan modul Model Kereta.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, gunakan modul Tune Model Hyperparameters. Dengan opsi ini, algoritma berulang atas beberapa kombinasi pengaturan yang Anda berikan dan menentukan kombinasi nilai yang menghasilkan model terbaik.

    Catatan

    Jika Anda meneruskan rentang parameter ke Model Kereta Api, ini hanya menggunakan nilai pertama dalam daftar rentang parameter.

    Jika Anda meneruskan satu set nilai parameter ke modul Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, ini mengabaikan nilai dan menggunakan nilai default untuk orang yang belajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa pun, nilai tunggal yang Anda tentukan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  11. Jalankan eksperimen.

Hasil

Setelah pelatihan selesai:

  • Untuk menggunakan model untuk penilaian, hubungkan ke Model Skor, untuk memprediksi nilai untuk contoh input baru.

Contoh

Untuk contoh bagaimana hutan keputusan digunakan dalam pembelajaran mesin, lihat Galeri AI Azure:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Untuk informasi selengkapnya tentang proses pelatihan dengan opsi Replikasi , lihat:

Tips penggunaan

Jika Anda memiliki data terbatas atau ingin meminimalkan waktu yang dihabiskan untuk melatih model, coba rekomendasi berikut:

Set pelatihan terbatas

Jika set pelatihan berisi sejumlah instans:

  • Buat hutan keputusan menggunakan sejumlah besar DAGs keputusan (misalnya, lebih dari 20)
  • Gunakan opsi Bagging untuk resampling.
  • Tentukan sejumlah besar langkah pengoptimalan per lapisan DAG (misalnya, lebih dari 10.000).

Waktu pelatihan terbatas

Jika set pelatihan berisi sejumlah besar contoh dan waktu pelatihan terbatas:

  • Buat hutan keputusan yang menggunakan jumlah DAGs keputusan yang lebih kecil (misalnya, 5-10).
  • Gunakan opsi Replikasi untuk resampling.
  • Tentukan sejumlah kecil langkah pengoptimalan per lapisan DAG (misalnya, kurang dari 2000).

Parameter modul

Nama Rentang Jenis Default Deskripsi
Metode resampling Semua ResamplingMethod Mengantongi Memilih metode resampling
Jumlah DAGs keputusan >=1 Bilangan bulat 8 Tentukan jumlah grafik keputusan yang dapat dibuat dalam ansambel
Kedalaman maksimum DAGs keputusan >=1 Bilangan bulat 32 Tentukan kedalaman maksimum grafik keputusan yang akan dibuat di ansambel
Lebar maksimum DAGs keputusan >=8 Bilangan bulat 128 Tentukan lebar maksimum grafik keputusan yang akan dibuat dalam ansambel
Jumlah langkah pengoptimalan per keputusan lapisan DAG >=1000 Bilangan bulat 2048 Tentukan jumlah langkah yang akan digunakan untuk mengoptimalkan setiap tingkat grafik keputusan
Mengizinkan nilai yang tidak diketahui untuk fitur kategoris Apa pun Boolean True Menunjukkan apakah nilai yang tidak diketahui dari fitur kategoris yang ada dapat dipetakan ke fitur baru dan tambahan

Output

Nama Jenis Deskripsi
Model tak terlatih Antarmuka ILearner Model klasifikasi multiclass yang tidak terlatih

Lihat juga

Hutan Keputusan Dua Kelas
Klasifikasi
Daftar Modul A-Z