Bagikan melalui


Regresi Hutan Keputusan

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model regresi menggunakan algoritma hutan keputusan

Kategori: Inisialisasi Model - Regresi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Regresi Hutan Keputusan di Pembelajaran Mesin Studio (klasik), untuk membuat model regresi berdasarkan ansambel pohon keputusan.

Setelah mengonfigurasi model, Anda harus melatih model menggunakan himpunan data berlabel dan modul Model Latihan. Model terlatih kemudian dapat digunakan untuk membuat prediksi. Atau, model yang tidak terlatih dapat diteruskan ke Cross-Validate Model untuk validasi silang terhadap kumpulan data berlabel.

Bagaimana hutan keputusan bekerja dalam tugas regresi

Pohon keputusan adalah model non-parametrik yang melakukan serangkaian tes sederhana untuk setiap contoh, melintasi struktur data pohon biner sampai simpul daun (keputusan) tercapai.

Pohon keputusan memiliki keuntungan ini:

  • Pohon keputusan efisien dalam komputasi dan penggunaan memori selama pelatihan dan prediksi.

  • Pohon keputusan dapat mewakili batas keputusan non-linier.

  • Pohon keputusan melakukan pemilihan dan klasifikasi fitur terintegrasi dan tangguh di hadapan fitur yang tidak jelas.

Model regresi ini terdiri dari ansambel pohon keputusan. Setiap pohon dalam hutan keputusan regresi menghasilkan distribusi Gaussia sebagai prediksi. Agregasi dilakukan di atas ansambel pohon untuk menemukan distribusi Gaussian yang paling dekat dengan distribusi gabungan untuk semua pohon dalam model.

Untuk informasi lebih lanjut tentang kerangka teoritis untuk algoritma ini dan implementasinya, lihat artikel ini: Hutan Keputusan: Kerangka Kerja Terpadu untuk Klasifikasi, Regresi, Estimasi Kepadatan, Manifold Pembelajaran dan Semi-Supervised Pembelajaran

Cara mengonfigurasi Model Decision Forest Regression

  1. Tambahkan modul Regresi Hutan Keputusan ke eksperimen. Anda dapat menemukan modul di Studio (klasik) di bawah Pembelajaran Mesin, Model Inisialisasi, dan Regresi.

  2. Buka properti modul, dan untuk Metode pengambilan sampel ulang, pilih metode yang digunakan untuk membuat pohon individual. Anda dapat memilih dari Bagging atau Replikasi.

    • Bagging: Bagging juga disebut agregasi bootstrap. Setiap pohon dalam hutan keputusan regresi menghasilkan distribusi Gaussia dengan cara prediksi. Agregasi adalah untuk menemukan Gaussian yang dua momen pertama cocok dengan saat-saat campuran Gaussians yang diberikan dengan menggabungkan semua Gaussian dikembalikan oleh pohon individu.

      Untuk informasi selengkapnya, lihat entri Wikipedia untuk Agregasi bootstrap.

    • Replikasi: Dalam replikasi, setiap pohon dilatih pada data input yang sama persis. Penentuan predikat split mana yang digunakan untuk setiap simpul pohon tetap acak dan pohonnya akan beragam.

      Untuk informasi selengkapnya tentang proses pelatihan dengan opsi Replicate, lihat Decision Forests for Computer Vision dan Medical Image Analysis. Criminisi dan J. Shotton. Springer 2013..

  3. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Parameter Tunggal

      Jika Anda tahu bagaimana Anda ingin mengonfigurasi model, Anda dapat memberikan serangkaian nilai tertentu sebagai argumen. Anda mungkin telah mempelajari nilai-nilai ini melalui eksperimen atau menerimanya sebagai panduan.

    • Rentang Parameter

      Jika Anda tidak yakin dengan parameter terbaik, Anda dapat menemukan parameter optimal dengan menentukan beberapa nilai dan menggunakan sapuan parameter untuk menemukan konfigurasi optimal.

      Tune Model Hyperparameters akan berulang atas semua kemungkinan kombinasi pengaturan yang Anda berikan dan menentukan kombinasi pengaturan yang menghasilkan hasil yang optimal.

  4. Untuk Jumlah pohon keputusan, tunjukkan jumlah total pohon keputusan yang akan dibuat dalam ansambel. Dengan membuat lebih banyak pohon keputusan, Anda berpotensi mendapatkan cakupan yang lebih baik, tetapi waktu pelatihan akan meningkat.

    Tip

    Nilai ini juga mengontrol jumlah pohon yang ditampilkan saat memvisualisasikan model terlatih. jika Anda ingin melihat atau mencetak satu pohon, Anda dapat mengatur nilainya menjadi 1; namun, ini berarti bahwa hanya satu pohon yang akan diproduksi (pohon dengan set parameter awal) dan tidak ada iterasi lebih lanjut yang akan dilakukan.

  5. Untuk Kedalaman maksimum pohon keputusan, ketikkan angka untuk membatasi kedalaman maksimum pohon keputusan apa pun. Meningkatkan kedalaman pohon dapat meningkatkan presisi, dengan risiko overfitting dan peningkatan waktu pelatihan.

  6. Untuk Jumlah pemisahan acak per simpul, ketikkan jumlah pemisahan yang akan digunakan saat membangun setiap simpul pohon. Pemisah artinya fitur di setiap tingkat pohon (node) dibagi secara acak.

  7. Untuk Jumlah minimum sampel per simpul daun, tunjukkan jumlah minimum kasus yang diperlukan untuk membuat simpul terminal (daun) apa pun di pohon.

    Dengan meningkatkan nilai ini, Anda meningkatkan ambang batas untuk membuat aturan baru. Misalnya, dengan nilai default 1, bahkan satu kasus dapat menyebabkan aturan baru dibuat. Jika Anda meningkatkan nilai menjadi 5, data pelatihan harus berisi setidaknya 5 kasus yang memenuhi kondisi yang sama.

  8. Pilih opsi Izinkan nilai yang tidak diketahui untuk fitur kategoris guna membuat grup untuk nilai yang tidak diketahui dalam set pelatihan atau validasi.

    Jika Anda membatalkan pilihannya, model hanya dapat menerima nilai yang terkandung dalam data pelatihan. Dalam kasus sebelumnya, model mungkin kurang tepat untuk nilai yang diketahui, tetapi dapat memberikan prediksi yang lebih baik untuk nilai baru (tidak diketahui).

  9. Koneksi himpunan data berlabel, pilih kolom label tunggal yang berisi tidak lebih dari dua hasil, dan hubungkan Train Model atau Tune Model Hyperparameters.

    • Jika Anda mengatur opsi Buat mode pelatih ke Parameter Tunggal, latih model dengan menggunakan modul Model Kereta Api.

    • Jika Anda mengatur opsi Buat mode pelatih ke Rentang Parameter, latih model dengan menggunakan Tune Model Hyperparameters.

  10. Jalankan eksperimen.

Hasil

Setelah pelatihan selesai:

  • Untuk melihat pohon yang dibuat pada setiap iterasi, klik kanan output modul pelatihan, dan pilih Visualisasikan.

  • Untuk melihat aturan untuk setiap node, klik setiap pohon dan telusuri ke dalam split.

  • Untuk menyimpan snapshot dari model terlatih, klik kanan output modul pelatihan, dan pilih Simpan Sebagai Model Terlatih. Salinan model ini tidak diperbarui pada percobaan berturut-turut.

Contoh

Untuk contoh model regresi, lihat eksperimen sampel ini di Galeri Intelijen Cortana:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

  • Jika Anda meneruskan rentang parameter ke Train Model, itu hanya akan menggunakan nilai pertama dalam daftar rentang parameter.

  • Jika Anda meneruskan satu set nilai parameter ke modul Tune Model Hyperparameters , ketika mengharapkan berbagai pengaturan untuk setiap parameter, ia mengabaikan nilai dan menggunakan nilai default untuk pelajar.

  • Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan sepanjang sapuan, bahkan jika parameter lain berubah di berbagai nilai.

Tips penggunaan

Jika Anda memiliki data terbatas atau ingin meminimalkan waktu yang dihabiskan untuk melatih model, coba pengaturan berikut:

Set pelatihan terbatas. Jika set pelatihan berisi sejumlah instans:

  • Buat hutan keputusan menggunakan sejumlah besar pohon keputusan (misalnya, lebih dari 20)

  • Gunakan opsi Bagging untuk resampling

  • Tentukan sejumlah besar split acak per node (misalnya, lebih dari 1000)

Waktu pelatihan yang terbatas. Jika set pelatihan berisi sejumlah besar contoh dan waktu pelatihan terbatas:

  • Buat hutan keputusan menggunakan lebih sedikit pohon keputusan (misalnya, 5-10)

  • Gunakan opsi Replikasi untuk resampling

  • Tentukan sejumlah kecil split acak per node (misalnya, kurang dari 100)

Parameter modul

Nama Rentang Jenis Default Deskripsi
Metode resampling apa pun ResamplingMethod Mengantongi Memilih metode resampling
Jumlah pohon keputusan >=1 Bilangan bulat 8 Tentukan jumlah pohon keputusan yang harus dibuat dalam ansambel
Kedalaman maksimum pohon keputusan >=1 Bilangan bulat 32 Tentukan kedalaman maksimum dari setiap pohon keputusan yang dapat dibuat dalam ansambel
Jumlah split acak per node >=1 Bilangan bulat 128 Tentukan jumlah split yang dihasilkan per node, dari mana split optimal dipilih
Jumlah minimum sampel per simpul daun >=1 Bilangan bulat 1 Tentukan jumlah minimum sampel pelatihan yang diperlukan untuk menghasilkan simpul daun
Mengizinkan nilai yang tidak diketahui untuk fitur kategoris apa pun Boolean TRUE Menunjukkan apakah nilai yang tidak diketahui dari fitur kategoris yang ada dapat dipetakan ke fitur baru dan tambahan

Output

Nama Jenis Deskripsi
Model tak terlatih Antarmuka ILearner Model regresi yang tidak terlatih

Lihat juga

Regresi

Daftar Modul A-Z