Algoritma Pohon Keputusan Microsoft

2023-12-23

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Algoritma Microsoft Decision Trees adalah algoritma klasifikasi dan regresi untuk digunakan dalam pemodelan prediktif atribut diskrit dan berkelanjutan.

Untuk atribut diskrit, algoritma membuat prediksi berdasarkan hubungan antara kolom input dalam himpunan data. Ini menggunakan nilai, yang dikenal sebagai status, dari kolom tersebut untuk memprediksi status kolom yang Anda tetapkan sebagai dapat diprediksi. Secara khusus, algoritma mengidentifikasi kolom input yang berkorelasi dengan kolom yang dapat diprediksi. Misalnya, dalam skenario untuk memprediksi pelanggan mana yang cenderung membeli sepeda, jika sembilan dari sepuluh pelanggan yang lebih muda membeli sepeda, tetapi hanya dua dari sepuluh pelanggan yang lebih tua yang melakukannya, algoritma menyimpulkan bahwa usia adalah prediktor pembelian sepeda yang baik. Pohon keputusan membuat prediksi berdasarkan kecenderungan ini terhadap hasil tertentu.

Untuk atribut berkelanjutan, algoritma menggunakan regresi linier untuk menentukan di mana pohon keputusan dibagi.

Jika lebih dari satu kolom diatur ke dapat diprediksi, atau jika data input berisi tabel berlapis yang diatur ke dapat diprediksi, algoritma membangun pohon keputusan terpisah untuk setiap kolom yang dapat diprediksi

Contoh

Departemen pemasaran perusahaan Adventure Works Cycles ingin mengidentifikasi karakteristik pelanggan sebelumnya yang mungkin menunjukkan apakah pelanggan tersebut cenderung membeli produk di masa depan. Database AdventureWorks2012 menyimpan informasi demografis yang menjelaskan pelanggan sebelumnya. Dengan menggunakan algoritma Microsoft Decision Trees untuk menganalisis informasi ini, departemen pemasaran dapat membangun model yang memprediksi apakah pelanggan tertentu akan membeli produk, berdasarkan status kolom yang diketahui tentang pelanggan tersebut, seperti demografi atau pola pembelian sebelumnya.

Cara Kerja Algoritma

Algoritma Microsoft Decision Trees membangun model penambangan data dengan membuat serangkaian pemisahan di pohon. Pemisahan ini direpresentasikan sebagai simpul. Algoritma menambahkan simpul ke model setiap kali kolom input ditemukan berkorelasi secara signifikan dengan kolom yang dapat diprediksi. Cara algoritma menentukan pemisahan berbeda tergantung pada apakah itu memprediksi kolom berkelanjutan atau kolom diskrit.

Algoritma Pohon Keputusan Microsoft menggunakan pilihan fitur untuk memandu pemilihan atribut yang paling berguna. Pemilihan fitur digunakan oleh semua algoritma SQL Server Data Mining untuk meningkatkan performa dan kualitas analisis. Pemilihan fitur penting untuk mencegah atribut yang tidak penting menggunakan waktu prosesor. Jika Anda menggunakan terlalu banyak atribut input atau dapat diprediksi saat Anda merancang model penambangan data, model dapat memakan waktu yang sangat lama untuk diproses, atau bahkan kehabisan memori. Metode yang digunakan untuk menentukan apakah akan membagi pohon termasuk metrik standar industri untuk entropi dan jaringan Bayesian*.* Untuk informasi selengkapnya tentang metode yang digunakan untuk memilih atribut yang bermakna lalu menilai dan memberi peringkat atribut, lihat Pilihan Fitur (Penggalian Data).

Masalah umum dalam model penambangan data adalah bahwa model menjadi terlalu sensitif terhadap perbedaan kecil dalam data pelatihan, dalam hal ini dikatakan terlalu padat atau terlalu terlatih. Model overfitted tidak dapat digeneralisasi ke himpunan data lainnya. Untuk menghindari overfitting pada kumpulan data tertentu, algoritma Microsoft Decision Trees menggunakan teknik untuk mengontrol pertumbuhan pohon. Untuk penjelasan yang lebih mendalam tentang cara kerja algoritma Microsoft Decision Trees, lihat Referensi Teknis Algoritma Pohon Keputusan Microsoft.

Memprediksi Kolom Diskrit

Cara algoritma Microsoft Decision Trees membangun pohon untuk kolom diskrit yang dapat diprediksi dapat ditunjukkan dengan menggunakan histogram. Diagram berikut menunjukkan histogram yang memplot kolom yang dapat diprediksi, Pembeli Sepeda, terhadap kolom input, Usia. Histogram menunjukkan bahwa usia seseorang membantu membedakan apakah orang itu akan membeli sepeda.

Histogram dari algoritma Microsoft Decision Trees

Korelasi yang ditampilkan dalam diagram akan menyebabkan algoritma Pohon Keputusan Microsoft membuat simpul baru dalam model.

Simpul pohon keputusan Simpul keputusan

Saat algoritma menambahkan simpul baru ke model, struktur pohon terbentuk. Simpul atas pohon menjelaskan perincian kolom yang dapat diprediksi untuk populasi keseluruhan pelanggan. Ketika model terus tumbuh, algoritma mempertimbangkan semua kolom.

Memprediksi Kolom Berkelanjutan

Saat algoritma Microsoft Decision Trees membangun pohon berdasarkan kolom yang dapat diprediksi berkelanjutan, setiap simpul berisi rumus regresi. Pemisahan terjadi pada titik non-linearitas dalam rumus regresi. Misalnya, pertimbangkan diagram berikut.

Beberapa baris regresi memperlihatkan non-linearitas

Dalam model regresi standar, Anda akan mencoba memperoleh satu rumus yang mewakili tren dan hubungan untuk data secara keseluruhan. Namun, satu rumus mungkin melakukan pekerjaan yang buruk untuk menangkap penghentian dalam data yang kompleks. Sebagai gantinya, algoritma Microsoft Decision Trees mencari segmen pohon yang sebagian besar linier dan membuat rumus terpisah untuk segmen-segmen ini. Dengan memecah data menjadi segmen yang berbeda, model dapat melakukan pekerjaan yang jauh lebih baik untuk menyetujui data.

Diagram berikut mewakili diagram pohon untuk model dalam plot yang tersebar di atas. Untuk memprediksi hasilnya, model menyediakan dua rumus berbeda: satu untuk cabang kiri, dengan rumus y = .5x x 5, dan satu untuk cabang kanan, dengan rumus y = .25x + 8,75. Titik di mana kedua baris bersatu dalam scatterplot adalah titik non-linearitas, dan merupakan titik di mana simpul dalam model pohon keputusan akan terbagi.

Persamaan yang mewakili titik persamaan non-linearitas

Ini adalah model sederhana dengan hanya dua persamaan linier; oleh karena itu, pemisahan di pohon segera setelah node Semua . Namun, pemisahan dapat terjadi pada setiap tingkat pohon. Itu berarti bahwa di pohon yang berisi beberapa tingkat dan simpul, di mana setiap simpul ditandai dengan kumpulan atribut yang berbeda, rumus mungkin dibagikan di beberapa simpul, atau hanya berlaku untuk satu simpul. Misalnya, Anda mungkin mendapatkan satu rumus untuk simpul yang didefinisikan sebagai "pelanggan di atas usia dan pendapatan tertentu", dan yang lain dalam simpul yang mewakili "pelanggan yang melakukan perjalanan jarak jauh". Untuk melihat rumus untuk simpul atau segmen individual, cukup klik simpul.

Data yang Diperlukan untuk Model Pohon Keputusan

Saat Menyiapkan data untuk digunakan dalam model pohon keputusan, Anda harus memahami persyaratan untuk algoritma tertentu, termasuk berapa banyak data yang diperlukan, dan bagaimana data digunakan.

Persyaratan untuk model pohon keputusan adalah sebagai berikut:

Kolom kunci tunggal Setiap model harus berisi satu kolom numerik atau teks yang secara unik mengidentifikasi setiap rekaman. Kunci campuran tidak diizinkan.
Kolom yang dapat diprediksi Memerlukan setidaknya satu kolom yang dapat diprediksi. Anda dapat menyertakan beberapa atribut yang dapat diprediksi dalam model, dan atribut yang dapat diprediksi dapat memiliki berbagai jenis, baik numerik atau diskrit. Namun, meningkatkan jumlah atribut yang dapat diprediksi dapat meningkatkan waktu pemrosesan.
Kolom input Memerlukan kolom input, yang dapat diskrit atau berkelanjutan. Meningkatkan jumlah atribut input memengaruhi waktu pemrosesan.

Untuk informasi selengkapnya tentang jenis konten dan jenis data yang didukung untuk model pohon keputusan, lihat bagian Persyaratan dari Referensi Teknis Algoritma Pohon Keputusan Microsoft.

Menampilkan Model Pohon Keputusan

Untuk menjelajahi model, Anda dapat menggunakan Microsoft Tree Viewer. Jika model Anda menghasilkan beberapa pohon, Anda dapat memilih pohon dan penampil menunjukkan kepada Anda perincian tentang bagaimana kasus dikategorikan untuk setiap atribut yang dapat diprediksi. Anda juga dapat melihat interaksi pohon dengan menggunakan penampil jaringan dependensi. Untuk informasi selengkapnya, lihat Menelusuri Model Menggunakan Microsoft Tree Viewer.

Jika Anda ingin mengetahui detail selengkapnya tentang cabang atau simpul apa pun di pohon, Anda juga dapat menelusuri model dengan menggunakan Penampil Pohon Konten Generik Microsoft. Konten yang disimpan untuk model mencakup distribusi untuk semua nilai di setiap simpul, probabilitas di setiap tingkat pohon, dan rumus regresi untuk atribut berkelanjutan. Untuk informasi selengkapnya, lihat Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Penggalian Data).

Membuat Prediksi

Setelah model diproses, hasilnya disimpan sebagai serangkaian pola dan statistik, yang dapat Anda gunakan untuk menjelajahi hubungan atau membuat prediksi.

Untuk contoh kueri yang akan digunakan dengan model pohon keputusan, lihat Contoh Kueri Model Pohon Keputusan.

Untuk informasi umum tentang cara membuat kueri terhadap model penambangan, lihat Kueri Penggalian Data.

Keterangan

Mendukung penggunaan Predictive Model Markup Language (PMML) untuk membuat model penambangan.
Mendukung penelusuran.
Mendukung penggunaan model penambangan OLAP dan pembuatan dimensi penambangan data.

Lihat juga

Algoritma Penggalian Data (Analysis Services - Penggalian Data)
Referensi Teknis Algoritma Pohon Keputusan Microsoft
Contoh Kueri Model Pohon Keputusan
Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Penggalian Data)