Bagikan melalui


Konten Model Penambangan untuk Model Pohon Keputusan (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Topik ini menjelaskan konten model penambangan yang khusus untuk model yang menggunakan algoritma Microsoft Decision Trees. Untuk penjelasan umum tentang konten model penambangan untuk semua jenis model, lihat Menambang Konten Model (Analysis Services - Data Mining). Penting untuk diingat bahwa algoritma Microsoft Decision Trees adalah algoritma hibrid yang dapat membuat model dengan fungsi yang sangat berbeda: pohon keputusan dapat mewakili asosiasi, aturan, atau bahkan regresi linier. Struktur pohon pada dasarnya sama, tetapi bagaimana Anda menginterpretasikan informasi akan tergantung pada tujuan Anda membuat model.

Memahami Struktur Model Pohon Keputusan

Model pohon keputusan memiliki satu simpul induk yang mewakili model dan metadatanya. Di bawah simpul induk adalah pohon independen yang mewakili atribut yang dapat diprediksi yang Anda pilih. Misalnya, jika Anda menyiapkan model pohon keputusan Untuk memprediksi apakah pelanggan akan membeli sesuatu, dan memberikan input untuk jenis kelamin dan pendapatan, model akan membuat satu pohon untuk atribut pembelian, dengan banyak cabang yang membagi kondisi yang terkait dengan jenis kelamin dan pendapatan.

Namun, jika Anda kemudian menambahkan atribut terpisah yang dapat diprediksi untuk partisipasi dalam program hadiah pelanggan, algoritma akan membuat dua pohon terpisah di bawah simpul induk. Satu pohon berisi analisis untuk pembelian, dan pohon lain berisi analisis untuk program hadiah pelanggan. Jika Anda menggunakan algoritma Pohon Keputusan untuk membuat model asosiasi, algoritma membuat pohon terpisah untuk setiap produk yang sedang diprediksi, dan pohon berisi semua kombinasi produk lain yang berkontribusi terhadap pemilihan atribut target.

Catatan

Jika model Anda menyertakan beberapa pohon, Anda hanya dapat melihat satu pohon pada satu waktu di Microsoft Tree Viewer. Namun, di Penampil Pohon Konten Generik , semua pohon dalam model yang sama ditampilkan secara bersamaan.

struktur konten model untuk struktur pohon keputusan

Pohon untuk setiap atribut yang dapat diprediksi berisi informasi yang menjelaskan bagaimana kolom input yang Anda pilih memengaruhi hasil atribut tertentu yang dapat diprediksi. Setiap pohon dipimpin oleh simpul (NODE_TYPE = 9) yang berisi atribut yang dapat diprediksi, diikuti oleh serangkaian simpul (NODE_TYPE = 10) yang mewakili atribut input. Atribut sesuai dengan kolom tingkat kasus atau nilai kolom tabel berlapis, yang umumnya merupakan nilai di kolom Kunci dari tabel berlapis.

Node interior dan daun mewakili kondisi terpisah. Pohon dapat dibagi pada atribut yang sama beberapa kali. Misalnya, model TM_DecisionTree mungkin dibagi pada [Pendapatan Tahunan] dan [Jumlah Anak], dan kemudian dibagi lagi pada [Pendapatan Tahunan] lebih jauh ke bawah pohon.

Algoritma Microsoft Decision Trees juga dapat berisi regresi linier di semua atau sebagian pohon. Jika atribut yang Anda model adalah jenis data numerik berkelanjutan, model dapat membuat simpul pohon regresi (NODE_TYPE = 25) di mana pun hubungan antara atribut dapat dimodelkan secara linier. Dalam hal ini, simpul berisi rumus regresi.

Namun, jika atribut yang dapat diprediksi memiliki nilai diskrit, atau jika nilai numerik telah di-bucket atau didisretisasi, model selalu membuat pohon klasifikasi (NODE_TYPE =2). Pohon klasifikasi dapat memiliki beberapa cabang atau simpul pohon interior (NODE_TYPE =3) untuk setiap nilai atribut. Namun, pemisahan belum tentu pada setiap nilai atribut.

Algoritma Microsoft Decision Trees tidak mengizinkan jenis data berkelanjutan sebagai input; oleh karena itu, jika ada kolom yang memiliki jenis data numerik berkelanjutan, nilainya disadari. Algoritma melakukan diskretisasinya sendiri pada titik pemisahan untuk semua atribut berkelanjutan.

Catatan

SQL Server Analysis Services secara otomatis memilih metode untuk bucketing atribut berkelanjutan; namun, Anda dapat mengontrol bagaimana nilai berkelanjutan dalam input disadari dengan mengatur jenis konten kolom struktur penambangan ke Diskret dan kemudian mengatur DiscretizationBucketCount properti atau DiscretizationMethod .

Teratas

Konten Model untuk Model Pohon Keputusan

Bagian ini menyediakan detail dan contoh hanya untuk kolom tersebut dalam konten model penambangan yang memiliki relevansi khusus untuk model pohon keputusan. Untuk informasi tentang kolom tujuan umum dalam kumpulan baris skema, dan penjelasan tentang terminologi model penambangan, lihat Menambang Konten Model (Analysis Services - Penggalian Data).

MODEL_CATALOG
Nama database tempat model disimpan.

MODEL_NAME
Nama model.

ATTRIBUTE_NAME
Nama atribut yang sesuai dengan simpul ini.

NODE_NAME
Selalu sama seperti NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Pengidentifikasi unik untuk simpul dalam model. Nilai ini tidak boleh diubah.

Untuk model pohon keputusan, nama unik mengikuti konvensi berikut, yang tidak berlaku untuk semua algoritma:

Simpul anak dari simpul tertentu semuanya akan memiliki awalan heksadesimal yang sama, diikuti dengan angka heksadesimal lain yang mewakili urutan simpul anak dalam induk. Anda dapat menggunakan awalan untuk menyimpulkan jalur.

NODE_TYPE
Dalam model pohon keputusan, jenis node berikut dibuat:

Jenis Node Deskripsi
1 (Model) Simpul akar untuk model.
2 (Pohon) Simpul induk untuk pohon klasifikasi dalam model. Berlabel "Semua".
3 (Interior) Kepala cabang interior, ditemukan di dalam pohon klasifikasi atau pohon regresi.
4 (Distribusi) Simpul daun, ditemukan di dalam pohon klasifikasi atau pohon regresi.
25 (Pohon regresi) Simpul induk untuk pohon regresi dalam model. Dilabeli sebagai "Semua".

NODE_CAPTION
Nama yang mudah diingat untuk tujuan tampilan.

Saat Anda membuat model, nilai NODE_UNIQUE_NAME secara otomatis digunakan sebagai caption. Namun, Anda dapat mengubah nilai untuk NODE_CAPTION memperbarui nama tampilan untuk kluster, baik secara terprogram atau dengan menggunakan penampil. caption secara otomatis dihasilkan oleh model. Konten caption tergantung pada jenis model, dan jenis node.

Dalam model pohon keputusan, NODE_CAPTION dan NODE_DESCRIPTION memiliki informasi yang berbeda, tergantung pada tingkat di pohon. Untuk informasi dan contoh selengkapnya, lihat Keterangan Simpul dan Deskripsi Simpul.

CHILDREN_CARDINALITY
Perkiraan jumlah anak yang dimiliki simpul.

Simpul induk Menunjukkan jumlah atribut yang dapat diprediksi yang dimodelkan. Pohon dibuat untuk setiap atribut yang dapat diprediksi.

Simpul pohonSimpul Semua untuk setiap pohon memberi tahu Anda berapa banyak nilai yang digunakan untuk atribut target.

  • Jika atribut target diskrit, nilainya sama dengan jumlah nilai berbeda ditambah 1 untuk status Hilang .

  • Jika atribut yang dapat diprediksi berkelanjutan, nilai memberi tahu Anda berapa banyak wadah yang digunakan untuk memodelkan atribut berkelanjutan.

Simpul daun Selalu 0.

PARENT_UNIQUE_NAME
Nama unik induk simpul. NULL dikembalikan untuk simpul apa pun di tingkat akar.

NODE_DESCRIPTION
Deskripsi simpul.

Dalam model pohon keputusan, NODE_CAPTION dan NODE_DESCRIPTION memiliki informasi yang berbeda, tergantung pada tingkat di pohon.

Untuk informasi dan contoh selengkapnya, lihat Keterangan Simpul dan Deskripsi Simpul.

NODE_RULE
Deskripsi XML dari aturan yang menjelaskan jalur ke simpul saat ini dari simpul induk langsungnya.

Untuk informasi dan contoh selengkapnya, lihat Aturan Simpul dan Aturan Marginal.

MARGINAL_RULE
Deskripsi XML dari aturan yang menjelaskan jalur dari simpul induk model ke simpul saat ini.

Untuk informasi selengkapnya, lihat Aturan Simpul dan Aturan Marginal.

NODE_PROBABILITY
Probabilitas yang terkait dengan simpul ini.

Untuk informasi selengkapnya, lihat Probabilitas.

MARGINAL_PROBABILITY
Probabilitas mencapai simpul dari simpul induk.

Untuk informasi selengkapnya, lihat Probabilitas.

NODE_DISTRIBUTION
Tabel yang berisi histogram probabilitas simpul. Informasi dalam tabel ini berbeda tergantung pada apakah atribut yang dapat diprediksi adalah variabel berkelanjutan atau diskrit.

Simpul akar model Tabel ini kosong.

(Semua) simpul Berisi ringkasan untuk model secara keseluruhan.

Simpul interior Berisi statistik agregat untuk simpul daunnya.

Simpul daun Berisi dukungan dan probabilitas untuk hasil yang diprediksi mengingat semua kondisi di jalur yang mengarah ke simpul daun saat ini.

Simpul regresi Berisi rumus regresi yang mewakili hubungan antara input dan atribut yang dapat diprediksi.

Untuk informasi selengkapnya, lihat Distribusi Simpul untuk Atribut Diskrit dan Distribusi Simpul untuk Atribut Berkelanjutan.

NODE_SUPPORT
Jumlah kasus yang mendukung simpul ini.

MSOLAP_MODEL_COLUMN
Menunjukkan kolom yang berisi atribut yang dapat diprediksi.

MSOLAP_NODE_SCORE
Menampilkan skor yang terkait dengan simpul. Untuk informasi selengkapnya, lihat Skor Simpul.

MSOLAP_NODE_SHORT_CAPTION
Label yang digunakan untuk tujuan tampilan.

Keterangan

Model pohon keputusan tidak memiliki simpul terpisah yang menyimpan statistik untuk seluruh model, tidak seperti simpul statistik marginal yang ditemukan di Naive Bayes atau model jaringan neural. Sebaliknya, model membuat pohon terpisah untuk setiap atribut yang dapat diprediksi, dengan simpul (Semua) di bagian atas pohon. Setiap pohon independen dari yang lain. Jika model Anda hanya berisi satu atribut yang dapat diprediksi, hanya ada satu pohon, dan oleh karena itu hanya satu simpul (Semua).

Setiap pohon yang mewakili atribut output juga dibagi menjadi cabang interior (NODE_TYPE = 3) yang mewakili pemisahan. Masing-masing pohon ini berisi statistik tentang distribusi atribut target. Selain itu, setiap simpul daun (NODE_TYPE = 4) berisi statistik yang menjelaskan atribut input dan nilainya, bersama dengan jumlah kasus yang mendukung setiap pasangan atribut-nilai. Oleh karena itu, di cabang pohon keputusan mana pun, Anda dapat melihat probabilitas atau distribusi data dengan mudah tanpa harus mengkueri data sumber. Setiap tingkat pohon selalu mewakili jumlah simpul anak langsungnya.

Untuk contoh cara mengambil statistik ini, lihat Contoh Kueri Model Pohon Keputusan.

Teratas

Contoh Struktur Pohon Keputusan

Untuk memahami cara kerja pohon keputusan, pertimbangkan contohnya, seperti skenario pembeli sepeda AdventureWorks. Dengan asumsi bahwa atribut yang dapat diprediksi adalah pembelian pelanggan, algoritma pohon keputusan mencoba menemukan satu kolom data, di antara semua input yang Anda berikan, yang paling efektif mendeteksi pelanggan yang kemungkinan membeli sepeda dan mereka yang tidak mungkin membeli sepeda. Misalnya, model mungkin menemukan bahwa Usia adalah indikator terbaik dari perilaku pembelian. Secara khusus, bahwa pelanggan di atas usia 30 tahun sangat mungkin membeli sepeda, dan semua pelanggan lain tidak mungkin melakukan pembelian. Dalam skenario ini, model membuat pemisahan pada atribut Usia. Itu berarti bahwa pohon dibagi menjadi dua cabang, satu berisi pelanggan di atas usia 30, dan yang lain berisi pelanggan di bawah 30. Cabang baru diwakili dalam struktur model sebagai dua pohon interior baru (NODE_TYPE = 3).

Untuk setiap cabang, model terus mencari atribut tambahan untuk digunakan dalam membedakan pelanggan. Jika ada bukti yang tidak mencukupi dalam data untuk terus membuat subgrup pelanggan, model berhenti membangun pohon. Model juga akan berhenti membangun pohon setiap kali jumlah kasus dalam simpul terlalu kecil untuk dilanjutkan, terlepas dari seberapa baik pemisahannya, atau jika nilainya null atau hilang. Dengan menghentikan pertumbuhan pohon lebih awal, Anda mencegah model berlatih terlalu dekat dengan satu set data tertentu.

Setiap simpul pohon interior berisi simpul daun yang memberikan perincian hasil yang diberikan hasil klasifikasi saat ini. Misalnya, Anda mungkin memiliki node interior yang mewakili Usia >= 30 dan Jenis Kelamin = Pria. Simpul untuk grup ini menunjukkan kepada Anda berapa banyak pelanggan dalam kategori ini yang dibeli atau tidak membeli sesuatu. Misalnya, klasifikasi mungkin berisi pemisahan pohon berikut:

Pohon interior Pemisahan
Usia >= 30 Usia >= 30 dan Jenis Kelamin = Pria
Usia >= 30 dan Jenis Kelamin = Perempuan
Usia < 30 Usia < 30 dan Jenis Kelamin = Pria
Usia < 30 dan Jenis Kelamin = Perempuan

Saat Anda menggunakan model pohon keputusan untuk prediksi, model mengambil atribut yang Anda berikan sebagai argumen dan mengikuti jalur atribut ke bawah melalui pohon. Secara umum, semua prediksi masuk ke daun, dan node interior hanya digunakan untuk klasifikasi.

Simpul daun selalu memiliki NODE_TYPE 4 (Distribusi) dan berisi histogram yang memberi tahu probabilitas setiap hasil (pembelian atau tidak membeli) dengan atribut yang Anda berikan. Misalnya, jika Anda meminta prediksi untuk pelanggan baru yang laki-laki di atas 60, model akan mencari node yang sesuai (Usia > 30 dan Jenis Kelamin = Laki-laki) dan kemudian mengembalikan probabilitas untuk hasil yang Anda tentukan. Probabilitas ini disimpan dalam tabel NODE_DISTRIBUTION untuk simpul.

Jika atribut yang dapat diprediksi adalah angka berkelanjutan, algoritma mencoba membuat rumus regresi yang memodelkan hubungan antara atribut yang dapat diprediksi dan input.

Teratas

Deskripsi Node Caption dan Node

Dalam model pohon keputusan, caption simpul dan deskripsi simpul berisi informasi serupa. Namun, deskripsi simpul lebih lengkap dan berisi lebih banyak informasi saat Anda bergerak lebih dekat ke simpul daun. Baik caption simpul maupun deskripsi simpul adalah string yang dilokalkan.

Kolom Deskripsi
Menampilkan atribut yang membedakan simpul tertentu relatif terhadap simpul induk. Simpul caption mendefinisikan sub-segmen populasi berdasarkan kondisi pemisahan. Misalnya, jika pemisahan terjadi pada [Usia] dan itu adalah pemisahan tiga arah, keterangan simpul untuk tiga simpul anak mungkin "[Usia] < 40", "40 <= [Usia] < 50", "[Usia] >= 50".
NODE_DESCRIPTION Berisi daftar lengkap atribut yang membedakan simpul tersebut dari simpul lain, mulai dari simpul induk model. Misalnya, Nama produk = Apel dan Warna = Merah.

Teratas

Aturan Simpul dan Aturan Marginal

Kolom NODE_RULE dan MARGINAL_RULE berisi informasi yang sama dengan kolom NODE_CAPTION dan NODE_DESCRIPTION, tetapi mewakili informasi sebagai fragmen XML. Aturan simpul adalah versi XML dari jalur lengkap, sedangkan aturan marginal menunjukkan pemisahan terbaru.

Atribut yang diwakili oleh fragmen XML bisa sederhana atau kompleks. Atribut sederhana berisi nama kolom model, dan nilai atribut . Jika kolom model berisi tabel berlapis, atribut tabel berlapis direpresentasikan sebagai perangkaian nama tabel, nilai kunci, dan atribut .

Catatan

SQL Server SQL Server Analysis Services mendukung standar PMML versi 2.0, dengan ekstensi untuk mendukung penggunaan tabel berlapis. Jika data Anda berisi tabel berlapis dan Anda membuat versi PMML model, semua elemen dalam model yang menyertakan predikat ditandai sebagai ekstensi.

Teratas

Distribusi Simpul untuk Atribut Diskrit

Dalam model pohon keputusan, tabel NODE_DISTRIBUTION berisi statistik yang berguna. Namun, jenis statistik tergantung pada apakah pohon memprediksi atribut diskrit atau berkelanjutan. Bagian ini menjelaskan arti statistik distribusi simpul untuk atribut diskrit.

Nama Atribut dan Nilai Atribut

Di pohon klasifikasi, nama atribut selalu berisi nama kolom yang dapat diprediksi. Nilai ini memberi tahu Anda apa yang diprediksi pohon. Karena satu pohon selalu mewakili satu atribut yang dapat diprediksi, nilai ini diulang di seluruh pohon.

Untuk jenis data diskrit, bidang nilai atribut mencantumkan nilai yang mungkin dari kolom yang dapat diprediksi, ditambah nilai Hilang .

Dukungan

Nilai dukungan untuk setiap simpul memberi tahu Anda berapa banyak kasus yang disertakan dalam simpul ini. Pada tingkat (Semua), Anda akan melihat jumlah lengkap kasus yang digunakan untuk melatih model. Untuk setiap pemisahan di pohon, nilai dukungan adalah hitungan kasus yang dikelompokkan ke dalam simpul pohon tersebut. Jumlah kasus dalam simpul daun selalu sama dengan jumlah kasus dalam simpul induk pohon.

Untuk simpul yang mewakili atribut berkelanjutan, keberadaan null dalam data dapat menyebabkan beberapa hasil yang berlawanan. Misalnya, jika ada kasus m, nilai rata-rata akan dihitung sebagai jumlah (semua kasus)/n, di mana n adalah angka kurang dari m, dan m-n menunjukkan jumlah kasus dengan nilai yang hilang. Dukungan juga direpresentasikan sebagai n.

Peluang

Probabilitas yang terkait dengan setiap simpul memberi tahu Anda probabilitas bahwa setiap kasus dalam seluruh himpunan data akan berakhir di simpul khusus ini. Skor probabilitas dihitung baik untuk pohon secara keseluruhan, dan untuk pemisahan langsung.

Misalnya, tabel berikut menunjukkan model yang sangat sederhana, dengan 100 kasus.

Pohon interior Kasus Simpul daun Kasus Probabilitas relatif terhadap simpul induk Probabilitas relatif terhadap simpul atas
Usia >= 30 60 Usia >= 30 dan Jenis Kelamin = Pria 50 50/60 = .83 50/100 = .5
Usia >= 30 dan Jenis Kelamin = Perempuan 10 10/60 = .16 10/100 = .10
Usia < 30 40 Usia < 30 dan Jenis Kelamin = Pria 30 30/40 = .75 30/100 = .30
Usia < 30 dan Jenis Kelamin = Perempuan 10 10/40 = .25 10/100 = .10

Penyesuaian kecil dilakukan di semua model untuk mempertanyakan kemungkinan nilai yang hilang. Untuk atribut berkelanjutan, setiap nilai atau rentang nilai direpresentasikan sebagai status (misalnya, Usia <30, Usia = 30, dan Usia >30) dan probabilitas dihitung sebagai berikut: status ada (nilai = 1), beberapa status lain ada (nilai = 0), status Hilang. Untuk informasi selengkapnya tentang bagaimana probabilitas disesuaikan untuk mewakili nilai yang hilang, lihat Nilai yang Hilang (Analysis Services - Data Mining).

Probabilitas untuk setiap simpul dihitung hampir langsung dari distribusi, sebagai berikut:

Probabilitas = (dukungan untuk status + dukungan untuk status sebelumnya) / (dukungan simpul ditambah dukungan simpul sebelumnya)

SQL Server Analysis Services menggunakan probabilitas untuk setiap simpul untuk membandingkan probabilitas yang disimpan dengan probabilitas sebelumnya untuk menentukan apakah jalur dari induk ke simpul anak menunjukkan inferensi yang kuat.

Saat membuat prediksi, probabilitas distribusi harus seimbang dengan probabilitas simpul, untuk memperlancar probabilitas. Misalnya, jika pemisahan di pohon memisahkan kasus dengan rasio 9000/1000, pohon sangat tidak seimbang. Akibatnya, prediksi yang berasal dari cabang kecil tidak boleh membawa berat yang sama dengan prediksi yang berasal dari cabang dengan banyak kasus.

Varian

Varians adalah ukuran seberapa nilai yang tersebar dalam sampel, mengingat distribusi yang diharapkan. Untuk nilai diskrit, variansnya adalah 0 menurut definisi.

Untuk informasi tentang bagaimana varians dihitung untuk nilai berkelanjutan, lihat Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data).

Jenis Nilai

Kolom jenis nilai menyediakan informasi tentang arti nilai numerik yang disediakan di kolom lain dalam tabel NODE_DISTRIBUTION. Anda dapat menggunakan jenis nilai dalam kueri untuk mengambil baris tertentu dari tabel berlapis. Misalnya, lihat Contoh Kueri Model Pohon Keputusan.

Dari jenis dalam MiningValueType enumerasi, berikut ini digunakan dalam pohon klasifikasi.

Jenis nilai Deskripsi
1 (Hilang) Menunjukkan hitungan, probabilitas, atau statistik lain yang terkait dengan nilai yang hilang.
4 (Diskrit) Menunjukkan hitungan, probabilitas, atau statistik lain yang terkait dengan nilai diskret atau diskret.

Jika model menyertakan atribut yang dapat diprediksi berkelanjutan, pohon mungkin juga berisi jenis nilai yang unik untuk rumus regresi. Untuk daftar jenis nilai yang digunakan dalam pohon regresi, lihat Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data).

Skor Simpul

Skor simpul mewakili informasi yang sedikit berbeda di setiap tingkat pohon. Secara umum, skor adalah nilai numerik yang memberi tahu Anda seberapa baik pemisahan dicapai dengan memisahkan kondisi. Nilai direpresentasikan sebagai ganda, di mana nilai yang lebih tinggi lebih baik.

Secara definisi, simpul model dan semua simpul daun memiliki skor simpul 0.

Untuk simpul (Semua) yang mewakili bagian atas setiap pohon, kolom MSOLAP_NODE_SCORE berisi skor pemisahan terbaik di seluruh pohon.

Untuk semua simpul lain di pohon (kecuali simpul daun), skor untuk setiap simpul mewakili skor pemisahan terbaik untuk simpul saat ini, dikurangi skor terpisah untuk simpul induk. Biasanya, skor terpisah untuk simpul induk harus selalu lebih baik daripada skor terpisah pada salah satu node anaknya. Itu karena model pohon keputusan idealnya dibagi pada atribut yang paling penting terlebih dahulu.

Catatan

Jika Anda membuat model pohon keputusan yang memiliki atribut yang dapat diprediksi berkelanjutan dan diskrit, Anda akan melihat skor yang sama sekali berbeda dalam simpul (Semua) yang mewakili setiap jenis pohon. Setiap model harus dipertimbangkan secara independen, dan metode yang digunakan untuk menilai regresi benar-benar berbeda dari yang digunakan untuk klasifikasi penilaian. Nilai skor simpul tidak dapat dibandingkan.

Teratas

Simpul Regresi dalam Model Pohon Keputusan

Jika model pohon keputusan berisi atribut yang dapat diprediksi dengan data numerik berkelanjutan, algoritma Pohon Keputusan Microsoft berusaha menemukan area dalam data di mana hubungan antara status yang diprediksi dan variabel input bersifat linier. Jika algoritma berhasil menemukan hubungan linier, algoritma akan membuat pohon khusus (NODE_TYPE = 25) yang mewakili regresi linier. Simpul pohon regresi ini lebih kompleks daripada simpul yang mewakili nilai diskrit.

Secara umum, regresi memetakan perubahan dalam dependen berkelanjutan (variabel yang dapat diprediksi) sebagai fungsi perubahan dalam input. Jika variabel dependen memiliki input berkelanjutan, dan hubungan antara input dan nilai yang diprediksi cukup stabil untuk dihitung sebagai grafik baris, simpul untuk regresi berisi rumus.

Namun, jika hubungan antara input dan nilai yang diprediksi tidaklinear, pemisahan dibuat sebagai gantinya, sama seperti pohon keputusan standar. Misalnya, asumsikan bahwa A adalah atribut yang dapat diprediksi, dan B dan C adalah input, di mana C adalah jenis nilai berkelanjutan. Jika hubungan antara A dan C cukup stabil di bagian data, tetapi tidak stabil di bagian lain, algoritma akan membuat pemisahan untuk mewakili area data yang berbeda.

Kondisi pemisahan Menghasilkan simpul
jika n < 5 Hubungan dapat diekspresikan sebagai persamaan 1
jika n antara 5 dan 10 Tidak ada persamaan
jika n > 10 Hubungan dapat diekspresikan sebagai persamaan 2

Untuk informasi selengkapnya tentang simpul regresi, lihat Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data).

Lihat juga

Konten Model Penambangan (Analysis Services - Penggalian Data)
Penampil Model Penggalian Data
Kueri Penggalian Data
Algoritma Pohon Keputusan Microsoft