Bagikan melalui


Referensi Teknis Algoritma Pohon Keputusan Microsoft

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Algoritma Microsoft Decision Trees adalah algoritma hibrid yang menggabungkan berbagai metode untuk membuat pohon, dan mendukung beberapa tugas analitik, termasuk regresi, klasifikasi, dan asosiasi. Algoritma Pohon Keputusan Microsoft mendukung pemodelan atribut diskrit dan berkelanjutan.

Topik ini menjelaskan implementasi algoritma, menjelaskan cara menyesuaikan perilaku algoritma untuk tugas yang berbeda, dan menyediakan tautan ke informasi tambahan tentang mengkueri model pohon keputusan.

Implementasi Algoritma Pohon Keputusan

Algoritma Microsoft Decision Trees menerapkan pendekatan Bayesian untuk mempelajari model interaksi kausal dengan mendapatkan perkiraan distribusi posterior untuk model. Untuk penjelasan terperinci tentang pendekatan ini, lihat makalah di situs Penelitian Microsoft, berdasarkan Pembelajaran Struktur dan Parameter.

Metodologi untuk menilai nilai informasi dari prioritas yang diperlukan untuk pembelajaran didasarkan pada asumsi kesetaraan kemungkinan. Asumsi ini mengatakan bahwa data tidak boleh membantu mendiskriminasi struktur jaringan yang mewakili pernyataan yang sama tentang kemandirian bersyarat. Setiap kasus diasumsikan memiliki satu jaringan Bayesian sebelumnya dan satu ukuran keyakinan untuk jaringan tersebut.

Dengan menggunakan jaringan sebelumnya ini, algoritma kemudian menghitung probabilitas posterior relatif struktur jaringan mengingat data pelatihan saat ini, dan mengidentifikasi struktur jaringan yang memiliki probabilitas posterior tertinggi.

Algoritma Microsoft Decision Trees menggunakan metode yang berbeda untuk menghitung pohon terbaik. Metode yang digunakan tergantung pada tugas, yang dapat berupa regresi linier, klasifikasi, atau analisis asosiasi. Satu model dapat berisi beberapa pohon untuk atribut yang dapat diprediksi yang berbeda. Selain itu, setiap pohon dapat berisi beberapa cabang, tergantung pada berapa banyak atribut dan nilai yang ada dalam data. Bentuk dan kedalaman pohon yang dibangun dalam model tertentu tergantung pada metode penilaian dan parameter lain yang digunakan. Perubahan parameter juga dapat memengaruhi di mana simpul dibagi.

Membangun Pohon

Ketika algoritma Microsoft Decision Trees membuat kumpulan nilai input yang mungkin, ia melakukan pemilihan fitur untuk mengidentifikasi atribut dan nilai yang memberikan informasi terbanyak, dan menghapus dari pertimbangan nilai yang sangat jarang. Algoritma ini juga mengelompokkan nilai ke dalam bin, untuk membuat pengelompokan nilai yang dapat diproses sebagai unit untuk mengoptimalkan performa.

Pohon dibangun dengan menentukan korelasi antara input dan hasil yang ditargetkan. Setelah semua atribut berkorelasi, algoritma mengidentifikasi atribut tunggal yang paling bersih memisahkan hasil. Titik pemisahan terbaik ini diukur dengan menggunakan persamaan yang menghitung perolehan informasi. Atribut yang memiliki skor terbaik untuk perolehan informasi digunakan untuk membagi kasus menjadi subset, yang kemudian dianalisis secara rekursif oleh proses yang sama, sampai pohon tidak dapat dibagi lagi.

Persamaan yang tepat yang digunakan untuk mengevaluasi perolehan informasi tergantung pada parameter yang ditetapkan saat Anda membuat algoritma, jenis data kolom yang dapat diprediksi, dan jenis data input.

Input Diskrit dan Berkelanjutan

Ketika atribut yang dapat diprediksi diskrit dan input diskrit, menghitung hasil per input adalah masalah membuat matriks dan menghasilkan skor untuk setiap sel dalam matriks.

Namun, ketika atribut yang dapat diprediksi diskret dan input terus menerus, input kolom berkelanjutan secara otomatis didiskretisasi. Anda dapat menerima default dan meminta SQL Server Analysis Services menemukan jumlah bin yang optimal, atau Anda dapat mengontrol cara input berkelanjutan dipisahkan dengan mengatur DiscretizationMethod properti dan DiscretizationBucketCount . Untuk informasi selengkapnya, lihat Mengubah Diskretisasi Kolom dalam Model Penambangan.

Untuk atribut berkelanjutan, algoritma menggunakan regresi linier untuk menentukan di mana pohon keputusan dibagi.

Ketika atribut yang dapat diprediksi adalah jenis data numerik berkelanjutan, pemilihan fitur juga diterapkan ke output, untuk mengurangi kemungkinan jumlah hasil dan membangun model lebih cepat. Anda dapat mengubah ambang untuk pemilihan fitur dan dengan demikian menambah atau mengurangi jumlah nilai yang mungkin dengan mengatur parameter MAXIMUM_OUTPUT_ATTRIBUTES.

Metode Penilaian dan Pemilihan Fitur

Algoritma Microsoft Decision Trees menawarkan tiga rumus untuk mendapatkan informasi penilaian: entropi Shannon, jaringan Bayesian dengan jaringan K2 sebelumnya, dan Bayesian dengan distribusi Dirichlet yang seragam sebelumnya. Ketiga metode tersebut mapan di bidang penggalian data. Sebaiknya Anda bereksperimen dengan parameter dan metode penilaian yang berbeda untuk menentukan mana yang memberikan hasil terbaik. Untuk informasi selengkapnya tentang metode penilaian ini, lihat Pemilihan Fitur.

Semua algoritma penggalian data SQL Server Analysis Services secara otomatis menggunakan pemilihan fitur untuk meningkatkan analisis dan mengurangi beban pemrosesan. Metode yang digunakan untuk pemilihan fitur tergantung pada algoritma yang digunakan untuk membangun model. Parameter algoritma yang mengontrol pemilihan fitur untuk model pohon keputusan MAXIMUM_INPUT_ATTRIBUTES dan MAXIMUM_OUTPUT.

Algoritma Metode analisis Komentar
Pohon Keputusan Skor kearifan

Entropi Shannon

Bayesian dengan K2 Prior

Bayesian Dirichlet dengan seragam sebelumnya (default)
Jika ada kolom yang berisi nilai berkelanjutan non-biner, skor ketertarikan digunakan untuk semua kolom, untuk memastikan konsistensi. Jika tidak, metode default atau yang ditentukan digunakan.
Regresi Linear Skor kearifan Regresi Linier hanya menggunakan keunikan, karena hanya mendukung kolom berkelanjutan.

Skalabilitas dan Performa

Klasifikasi adalah strategi penggalian data yang penting. Umumnya, jumlah informasi yang diperlukan untuk mengklasifikasikan kasus tumbuh dalam proporsi langsung dengan jumlah rekaman input. Ini membatasi ukuran data yang dapat diklasifikasikan. Algoritma Microsoft Decision Trees menggunakan metode berikut untuk mengatasi masalah ini, meningkatkan performa, dan menghilangkan pembatasan memori:

  • Pilihan fitur untuk mengoptimalkan pemilihan atribut.

  • Bayesian mencetak untuk mengontrol pertumbuhan pohon.

  • Pengoptimalan pengikatan untuk atribut berkelanjutan.

  • Pengelompokan nilai input dinamis untuk menentukan nilai yang paling penting.

Algoritma Microsoft Decision Trees cepat dan dapat diskalakan, dan telah dirancang untuk dengan mudah diparalelkan, yang berarti bahwa semua prosesor bekerja sama untuk membangun satu model yang konsisten. Kombinasi karakteristik ini menjadikan pengklasifikasi pohon keputusan sebagai alat yang ideal untuk penambangan data.

Jika batasan performa parah, Anda mungkin dapat meningkatkan waktu pemrosesan selama pelatihan model pohon keputusan dengan menggunakan metode berikut. Namun, jika Anda melakukannya, ketahuilah bahwa menghilangkan atribut untuk meningkatkan performa pemrosesan akan mengubah hasil model, dan mungkin membuatnya kurang mewakili total populasi.

  • Tingkatkan nilai parameter COMPLEXITY_PENALTY untuk membatasi pertumbuhan pohon.

  • Batasi jumlah item dalam model asosiasi untuk membatasi jumlah pohon yang dibangun.

  • Tingkatkan nilai parameter MINIMUM_SUPPORT untuk menghindari overfitting.

  • Batasi jumlah nilai diskrit untuk atribut apa pun menjadi 10 atau kurang. Anda dapat mencoba mengelompokkan nilai dengan cara yang berbeda dalam model yang berbeda.

    Catatan

    Anda dapat menggunakan alat eksplorasi data yang tersedia di SQL Server 2017 Integration Services (SSIS) untuk memvisualisasikan distribusi nilai dalam data Anda dan mengelompokkan nilai Anda dengan tepat sebelum memulai penambangan data. Untuk informasi selengkapnya, lihat Tugas Pembuatan Profil Data dan Penampil. Anda juga bisa menggunakan Add-in Penggalian Data untuk Excel 2007, untuk menjelajahi, mengelompokkan, dan memberi label ulang data di Microsoft Excel.

Menyesuaikan Algoritma Pohon Keputusan

Algoritma Microsoft Decision Trees mendukung parameter yang memengaruhi performa dan akurasi model penambangan yang dihasilkan. Anda juga dapat mengatur bendera pemodelan pada kolom model penambangan atau kolom struktur penambangan untuk mengontrol cara data diproses.

Catatan

Algoritma Microsoft Decision Trees tersedia di semua edisi SQL Server; namun, beberapa parameter lanjutan untuk menyesuaikan perilaku algoritma Pohon Keputusan Microsoft tersedia untuk digunakan hanya dalam edisi SQL Server tertentu. Untuk daftar fitur yang didukung oleh edisi SQL Server, lihat Fitur yang Didukung oleh Edisi SQL Server 2012 (https://go.microsoft.com/fwlink/?linkid=232473).

Mengatur Parameter Algoritma

Tabel berikut ini menjelaskan parameter yang bisa Anda gunakan dengan algoritma Microsoft Decision Trees.

COMPLEXITY_PENALTY
Mengontrol pertumbuhan pohon keputusan. Nilai rendah meningkatkan jumlah pemisahan, dan nilai tinggi mengurangi jumlah pemisahan. Nilai default didasarkan pada jumlah atribut untuk model tertentu, seperti yang dijelaskan dalam daftar berikut:

  • Untuk atribut 1 hingga 9, defaultnya adalah 0,5.

  • Untuk atribut 10 hingga 99, defaultnya adalah 0,9.

  • Untuk 100 atribut atau lebih, defaultnya adalah 0,99.

FORCE_REGRESSOR
Memaksa algoritma untuk menggunakan kolom yang ditentukan sebagai regresi, terlepas dari pentingnya kolom sebagaimana dihitung oleh algoritma. Parameter ini hanya digunakan untuk pohon keputusan yang memprediksi atribut berkelanjutan.

Catatan

Dengan mengatur parameter ini, Anda memaksa algoritma untuk mencoba menggunakan atribut sebagai regresor. Namun, apakah atribut benar-benar digunakan sebagai regresor dalam model akhir tergantung pada hasil analisis. Anda dapat mengetahui kolom mana yang digunakan sebagai regresi dengan mengkueri konten model.

[Hanya tersedia dalam beberapa edisi SQL Server ]

MAXIMUM_INPUT_ATTRIBUTES
Menentukan jumlah atribut input yang dapat ditangani algoritma sebelum memanggil pemilihan fitur.

Defaultnya adalah 255.

Atur nilai ini ke 0 untuk menonaktifkan pilihan fitur.

[Hanya tersedia dalam beberapa edisi SQL Server]

MAXIMUM_OUTPUT_ATTRIBUTES
Menentukan jumlah atribut output yang dapat ditangani algoritma sebelum memanggil pemilihan fitur.

Defaultnya adalah 255.

Atur nilai ini ke 0 untuk menonaktifkan pilihan fitur.

[Hanya tersedia dalam beberapa edisi SQL Server]

MINIMUM_SUPPORT
Menentukan jumlah minimum kasus daun yang diperlukan untuk menghasilkan pemisahan di pohon keputusan.

Nilai defaultnya adalah 10.

Anda mungkin perlu meningkatkan nilai ini jika himpunan data sangat besar, untuk menghindari pelatihan berlebih.

SCORE_METHOD
Menentukan metode yang digunakan untuk menghitung skor terpisah. Opsi berikut tersedia:

ID Nama
1 Entropi
3 Bayesian dengan K2 Prior
4 Bayesian Dirichlet Equivalent (BDE) dengan seragam sebelumnya

(default)

Defaultnya adalah 4, atau BDE.

Untuk penjelasan tentang metode penilaian ini, lihat Pemilihan Fitur.

SPLIT_METHOD
Menentukan metode yang digunakan untuk membagi simpul. Opsi berikut tersedia:

ID Nama
1 Biner: Menunjukkan bahwa terlepas dari jumlah nilai aktual untuk atribut, pohon harus dibagi menjadi dua cabang.
2 Lengkap: Menunjukkan bahwa pohon dapat membuat pemisahan sebanyak ada nilai atribut.
3 Kedua: Menentukan bahwa Analysis Services dapat menentukan apakah pemisahan biner atau lengkap harus digunakan untuk menghasilkan hasil terbaik.

Standarnya adalah 3.

Bendera Pemodelan

Algoritma Microsoft Decision Trees mendukung bendera pemodelan berikut. Saat Anda membuat struktur penambangan atau model penambangan, Anda menentukan bendera pemodelan untuk menentukan bagaimana nilai di setiap kolom ditangani selama analisis. Untuk informasi selengkapnya, lihat Bendera Pemodelan (Penggalian Data).

Bendera Pemodelan Deskripsi
MODEL_EXISTENCE_ONLY Berarti bahwa kolom akan diperlakukan sebagai memiliki dua kemungkinan status: Hilang dan Sudah Ada. Null adalah nilai yang hilang.

Berlaku untuk kolom model penambangan.
NOT_NULL Menunjukkan bahwa kolom tidak boleh berisi null. Kesalahan akan mengakibatkan jika Analysis Services mengalami null selama pelatihan model.

Berlaku untuk kolom struktur penambangan.

Regresi dalam Model Pohon Keputusan

Bahkan jika Anda tidak menggunakan algoritma Regresi Linier Microsoft, model pohon keputusan apa pun yang memiliki input dan output numerik berkelanjutan berpotensi menyertakan simpul yang mewakili regresi pada atribut berkelanjutan.

Anda tidak perlu menentukan bahwa kolom data numerik berkelanjutan mewakili regresor. Algoritma Microsoft Decision Trees akan secara otomatis menggunakan kolom sebagai regresor potensial dan mempartisi himpunan data ke wilayah dengan pola yang bermakna bahkan jika Anda tidak mengatur bendera REGRESSOR pada kolom.

Namun, Anda dapat menggunakan parameter FORCE_REGRESSOR untuk menjamin bahwa algoritma akan menggunakan regresor tertentu. Parameter ini hanya dapat digunakan dengan algoritma Microsoft Decision Trees dan Microsoft Linear Regression. Ketika Anda mengatur bendera pemodelan, algoritma akan mencoba menemukan persamaan regresi formulir a*C1 + b*C2 + ... agar sesuai dengan pola dalam simpul pohon. Jumlah residu dihitung, dan jika penyimpangan terlalu besar, pemisahan dipaksa di pohon.

Misalnya, jika Anda memprediksi perilaku pembelian pelanggan menggunakan Pendapatan sebagai atribut, dan mengatur bendera pemodelan REGRESSOR pada kolom, algoritma akan terlebih dahulu mencoba menyesuaikan nilai Pendapatan dengan menggunakan rumus regresi standar. Jika penyimpangan terlalu besar, rumus regresi ditinggalkan dan pohon akan dibagi pada atribut lain. Algoritma pohon keputusan kemudian akan mencoba untuk menyesuaikan regresi untuk pendapatan di setiap cabang setelah pemisahan.

Persyaratan

Model pohon keputusan harus berisi kolom kunci, kolom input, dan setidaknya satu kolom yang dapat diprediksi.

Kolom Input dan Yang Dapat Diprediksi

Algoritma Pohon Keputusan Microsoft mendukung kolom input tertentu dan kolom yang dapat diprediksi yang tercantum dalam tabel berikut. Untuk informasi selengkapnya tentang arti jenis konten saat digunakan dalam model penambangan, lihat Jenis Konten (Penggalian Data).

Kolom Jenis konten
Atribut input Berkelanjutan, Siklus, Diskret, Diskret, Kunci, Diurutkan, Tabel
Atribut yang dapat diprediksi Berkelanjutan, Siklus, Diskret, Diskret, Diurutkan, Tabel

Catatan

Jenis konten Cyclical dan Ordered didukung, tetapi algoritma memperlakukannya sebagai nilai diskrit dan tidak melakukan pemrosesan khusus.

Lihat juga

Algoritma Pohon Keputusan Microsoft
Contoh Kueri Model Pohon Keputusan
Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Penggalian Data)