Bagikan melalui


Konten Model Penambangan (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Setelah Anda merancang dan memproses model penambangan menggunakan data dari struktur penambangan yang mendasar, model penambangan selesai dan berisi konten model penambangan. Anda dapat menggunakan konten ini untuk membuat prediksi atau menganalisis data Anda.

Konten model penambangan mencakup metadata tentang model, statistik tentang data, dan pola yang ditemukan oleh algoritma penambangan. Bergantung pada algoritma yang digunakan, konten model dapat mencakup rumus regresi, definisi aturan dan itemet, atau bobot dan statistik lainnya.

Terlepas dari algoritma yang digunakan, konten model penambangan disajikan dalam struktur standar. Anda dapat menelusuri struktur di Penampil Pohon Konten Generik Microsoft, yang disediakan dalam SQL Server Data Tools, lalu beralih ke salah satu penampil kustom untuk melihat bagaimana informasi ditafsirkan dan ditampilkan secara grafis untuk setiap jenis model. Anda juga dapat membuat kueri terhadap konten model penambangan dengan menggunakan klien apa pun yang mendukung kumpulan baris skema MINING_MODEL_CONTENT. Untuk informasi selengkapnya, lihat Tugas Kueri Penggalian Data dan Panduan.

Bagian ini menjelaskan struktur dasar konten yang disediakan untuk semua jenis model penambangan. Ini menjelaskan jenis node yang umum untuk semua konten model penambangan, dan memberikan panduan tentang cara menginterpretasikan informasi.

Struktur Konten Model Penambangan

Simpul dalam Konten Model

Menambang Konten Model berdasarkan Jenis Algoritma

Alat untuk Menampilkan Konten Model Penambangan

Alat untuk Mengkueri Konten Model Penambangan

Struktur Konten Model Penambangan

Konten setiap model disajikan sebagai serangkaian simpul. Simpul adalah objek dalam model penambangan yang berisi metadata dan informasi tentang sebagian model. Simpul diatur dalam hierarki. Pengaturan simpul yang tepat dalam hierarki, dan arti hierarki, tergantung pada algoritma yang Anda gunakan. Misalnya, jika Anda membuat model pohon keputusan, model dapat berisi beberapa pohon, semuanya terhubung ke akar model; jika Anda membuat model jaringan neural, model mungkin berisi satu atau beberapa jaringan, ditambah simpul statistik.

Simpul pertama di setiap model disebut simpul akar, atau simpul induk model . Setiap model memiliki simpul akar (NODE_TYPE = 1). Simpul akar biasanya berisi beberapa metadata tentang model, dan jumlah simpul anak, tetapi sedikit informasi tambahan tentang pola yang ditemukan oleh model.

Tergantung pada algoritma mana yang Anda gunakan untuk membuat model, simpul akar memiliki jumlah simpul anak yang bervariasi. Simpul anak memiliki arti yang berbeda dan berisi konten yang berbeda, tergantung pada algoritma dan kedalaman dan kompleksitas data.

Simpul dalam Menambang Konten Model

Dalam model penambangan, simpul adalah kontainer tujuan umum yang menyimpan sepotong informasi tentang semua atau sebagian model. Struktur setiap simpul selalu sama, dan berisi kolom yang ditentukan oleh himpunan baris skema penambangan data.

Setiap simpul menyertakan metadata tentang simpul, termasuk pengidentifikasi yang unik dalam setiap model, ID simpul induk, dan jumlah simpul anak yang dimiliki simpul. Metadata mengidentifikasi model tempat simpul berada, dan katalog database tempat model tertentu disimpan. Konten tambahan yang disediakan dalam simpul berbeda tergantung pada jenis algoritma yang Anda gunakan untuk membuat model, dan mungkin mencakup hal berikut:

  • Jumlah kasus dalam data pelatihan yang mendukung nilai prediksi tertentu.

  • Statistik, seperti rata-rata, simpangian standar, atau varians.

  • Koefisien dan rumus.

  • Definisi aturan dan penunjuk lateral.

  • Fragmen XML yang menjelaskan sebagian model.

Daftar Jenis Node Konten Penggalian

Tabel berikut mencantumkan berbagai jenis simpul yang merupakan output dalam model penambangan data. Karena setiap algoritma memproses informasi secara berbeda, setiap model hanya menghasilkan beberapa jenis node tertentu. Jika Anda mengubah algoritma, jenis simpul dapat berubah. Selain itu, jika Anda memproses ulang model, konten setiap simpul dapat berubah.

Catatan

Jika Anda menggunakan layanan penggalian data yang berbeda, atau jika Anda membuat algoritma plug-in Anda sendiri, jenis node kustom tambahan mungkin tersedia.

NODE_TYPE ID Label Simpul Isi Simpul
1 Model Metadata dan simpul konten akar. Berlaku untuk semua jenis model.
2 Pohon Simpul akar pohon klasifikasi. Berlaku untuk model pohon keputusan.
3 Interior Node split interior di pohon. Berlaku untuk model pohon keputusan.
4 Distribusi Simpul terminal pohon. Berlaku untuk model pohon keputusan.
5 Kluster Kluster terdeteksi oleh algoritma. Berlaku untuk model pengklusteran dan urutan model pengklusteran.
6 Tidak dikenal Jenis node tidak diketahui.
7 ItemSet Item terdeteksi oleh algoritma. Berlaku untuk model asosiasi atau model pengklusteran urutan.
8 AssociationRule Aturan asosiasi terdeteksi oleh algoritma. Berlaku untuk model asosiasi atau model pengklusteran urutan.
9 PredictableAttribute Atribut yang dapat diprediksi. Berlaku untuk semua jenis model.
10 InputAttribute Atribut input. Berlaku untuk pohon keputusan dan model Naïve Bayes.
11 InputAttributeState Statistik tentang status atribut input. Berlaku untuk pohon keputusan dan model Naïve Bayes.
13 Urutan Simpul teratas untuk komponen model Markov dari kluster urutan. Berlaku untuk mengurutkan model pengklusteran.
14 Transisi Matriks transisi Markov. Berlaku untuk mengurutkan model pengklusteran.
15 TimeSeries Simpul non-akar dari pohon rangkaian waktu. Hanya berlaku untuk model rangkaian waktu.
16 TsTree Simpul akar pohon rangkaian waktu yang sesuai dengan rangkaian waktu yang dapat diprediksi. Berlaku untuk model rangkaian waktu, dan hanya jika model dibuat menggunakan parameter MIXED.
17 NNetSubnetwork Satu sub-jaringan. Berlaku untuk model jaringan neural.
18 NNetInputLayer Grup yang berisi simpul lapisan input. Berlaku untuk model jaringan neural.
19 NNetHiddenLayer Grup yang berisi simpul yang menjelaskan lapisan tersembunyi. Berlaku untuk model jaringan neural.
21 NNetOutputLayer Grup yang berisi simpul lapisan output. Berlaku untuk model jaringan neural.
21 NNetInputNode Simpul di lapisan input yang cocok dengan atribut input dengan status yang sesuai. Berlaku untuk model jaringan neural.
22 NNetHiddenNode Simpul di lapisan tersembunyi. Berlaku untuk model jaringan neural.
23 NNetOutputNode Simpul di lapisan output. Simpul ini biasanya akan cocok dengan atribut output dan status yang sesuai. Berlaku untuk model jaringan neural.
24 NNetMarginalNode Statistik marginal tentang set pelatihan. Berlaku untuk model jaringan neural.
25 RegressionTreeRoot Akar pohon regresi. Berlaku untuk model regresi linier dan untuk model pohon keputusan yang berisi atribut input berkelanjutan.
26 NaiveBayesMarginalStatNode Statistik marginal tentang set pelatihan. Berlaku untuk model Naïve Bayes.
27 ArimaRoot Simpul akar model ARIMA. Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
28 ArimaPeriodicStructure Struktur berkala dalam model ARIMA. Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
29 ArimaAutoRegressive Koefisien regresif otomatis untuk satu istilah dalam model ARIMA.

Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
30 ArimaMovingAverage Memindahkan koefisien rata-rata untuk satu istilah dalam model ARIMA. Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
1000 CustomBase Titik awal untuk jenis node kustom. Jenis node kustom harus berupa bilangan bulat yang lebih besar nilainya daripada konstanta ini. Berlaku untuk model yang dibuat dengan menggunakan algoritma plug-in kustom.

ID Simpul, Nama, Keterangan, dan Deskripsi

Simpul akar dari model apa pun selalu memiliki ID unik (NODE_UNIQUE_NAME) 0. Semua ID simpul ditetapkan secara otomatis oleh Analysis Services dan tidak dapat dimodifikasi.

Simpul akar untuk setiap model juga berisi beberapa metadata dasar tentang model. Metadata ini mencakup database Analysis Services tempat model disimpan (MODEL_CATALOG), skema (MODEL_SCHEMA), dan nama model (MODEL_NAME). Namun, informasi ini diulang di semua simpul model, jadi Anda tidak perlu mengkueri simpul akar untuk mendapatkan metadata ini.

Selain nama yang digunakan sebagai pengidentifikasi unik, setiap simpul memiliki nama (NODE_NAME). Nama ini secara otomatis dibuat oleh algoritma untuk tujuan tampilan dan tidak dapat diedit.

Catatan

Algoritma Pengklusteran Microsoft memungkinkan pengguna untuk menetapkan nama yang mudah diingat ke setiap kluster. Namun, nama-nama yang mudah diingat ini tidak bertahan di server, dan jika Anda memproses ulang model, algoritma akan menghasilkan nama kluster baru.

Caption dan deskripsi untuk setiap simpul secara otomatis dihasilkan oleh algoritma, dan berfungsi sebagai label untuk membantu Anda memahami konten simpul. Teks yang dihasilkan untuk setiap bidang tergantung pada jenis model. Dalam beberapa kasus, nama, caption, dan deskripsi mungkin berisi string yang sama persis, tetapi dalam beberapa model, deskripsi mungkin berisi informasi tambahan. Lihat topik tentang jenis model individual untuk detail implementasinya.

Catatan

Server Analysis Services mendukung penggantian nama simpul hanya jika Anda membangun model dengan menggunakan algoritma plug-in kustom yang mengimplementasikan penggantian nama, . Untuk mengaktifkan penggantian nama, Anda harus mengganti metode saat membuat algoritma plug-in.

Node Parents, Node Children, dan Node Cardinality

Hubungan antara simpul induk dan anak dalam struktur pohon ditentukan oleh nilai kolom PARENT_UNIQUE_NAME. Nilai ini disimpan dalam simpul anak dan memberi tahu Anda ID simpul induk. Beberapa contoh mengikuti bagaimana informasi ini dapat digunakan:

  • PARENT_UNIQUE_NAME yang NULL berarti bahwa simpul adalah simpul teratas model.

  • Jika nilai PARENT_UNIQUE_NAME adalah 0, simpul harus merupakan turunan langsung dari simpul teratas dalam model. Ini karena ID simpul akar selalu 0.

  • Anda dapat menggunakan fungsi dalam kueri Ekstensi Penggalian Data (DMX) untuk menemukan turunan atau induk simpul tertentu. Untuk informasi selengkapnya tentang menggunakan fungsi dalam kueri, lihat Kueri Penggalian Data.

Kardinalitas mengacu pada jumlah item dalam satu set. Dalam konteks model penambangan yang diproses, kardinalitas memberi tahu Anda jumlah anak dalam simpul tertentu. Misalnya, jika model pohon keputusan memiliki simpul untuk [Pendapatan Tahunan], dan simpul tersebut memiliki dua simpul anak, satu untuk kondisi [Pendapatan Tahunan] = Tinggi dan satu untuk kondisi tersebut, [Pendapatan Tahunan] = Rendah, nilai CHILDREN_CARDINALITY untuk simpul [Pendapatan Tahunan] adalah 2.

Catatan

Dalam SQL Server Analysis Services, hanya simpul anak langsung yang dihitung saat menghitung kardinalitas simpul. Namun, jika Anda membuat algoritma plug-in kustom, Anda dapat membebani CHILDREN_CARDINALITY untuk menghitung kardinalitas secara berbeda. Ini mungkin berguna, misalnya, jika Anda ingin menghitung jumlah total keturunan, bukan hanya anak-anak langsung.

Meskipun kardinalitas dihitung dengan cara yang sama untuk semua model, bagaimana Anda menafsirkan atau menggunakan nilai kardinalitas berbeda tergantung pada jenis model. Misalnya, dalam model pengklusteran, kardinalitas simpul atas memberi tahu Anda jumlah total kluster yang ditemukan. Dalam jenis model lain, kardinalitas mungkin selalu memiliki nilai yang ditetapkan tergantung pada jenis node. Untuk informasi selengkapnya tentang cara menginterpretasikan kardinalitas, lihat topik tentang jenis model individual.

Catatan

Beberapa model, seperti yang dibuat oleh algoritma Microsoft Neural Network, juga berisi jenis node khusus yang menyediakan statistik deskriptif tentang data pelatihan untuk seluruh model. Secara definisi, simpul ini tidak pernah memiliki simpul anak.

Distribusi Simpul

Kolom NODE_DISTRIBUTION berisi tabel berlapis yang dalam banyak simpul menyediakan informasi penting dan terperinci tentang pola yang ditemukan oleh algoritma. Statistik yang tepat yang disediakan dalam tabel ini berubah tergantung pada jenis model, posisi simpul di pohon, dan apakah atribut yang dapat diprediksi adalah nilai numerik berkelanjutan atau nilai diskrit; namun, mereka dapat menyertakan nilai minimum dan maksimum atribut, bobot yang ditetapkan ke nilai, jumlah kasus dalam simpul, koefisien yang digunakan dalam rumus regresi, dan langkah-langkah statistik seperti simpangan baku dan varians. Untuk informasi selengkapnya tentang cara menginterpretasikan distribusi simpul, lihat topik untuk jenis model tertentu yang sedang Anda kerjakan.

Catatan

Tabel NODE_DISTRIBUTION mungkin kosong, tergantung pada jenis node. Misalnya, beberapa simpul hanya berfungsi untuk mengatur kumpulan simpul anak, dan simpul anak yang berisi statistik terperinci.

Tabel berlapis, NODE_DISTRIBUTION, selalu berisi kolom berikut. Konten setiap kolom bervariasi tergantung pada jenis model. Untuk informasi selengkapnya tentang jenis model tertentu, lihat Menambang Konten Model berdasarkan Jenis Algoritma.

ATTRIBUTE_NAME
Konten bervariasi menurut algoritma. Bisa menjadi nama kolom, seperti atribut yang dapat diprediksi, aturan, item, atau informasi internal algoritma, seperti bagian dari rumus.

Kolom ini juga dapat berisi pasangan atribut-nilai.

ATTRIBUTE_VALUE
Nilai atribut bernama dalam ATTRIBUTE_NAME.

Jika nama atribut adalah kolom, maka dalam kasus yang paling mudah, ATTRIBUTE_VALUE berisi salah satu nilai diskrit untuk kolom tersebut.

Bergantung pada bagaimana algoritma memproses nilai, ATTRIBUTE_VALUE juga dapat berisi bendera yang memberi tahu Anda apakah ada nilai untuk atribut (Ada), atau apakah nilainya null (Hilang).

Misalnya, jika model Anda disiapkan untuk menemukan pelanggan yang telah membeli item tertentu setidaknya sekali, kolom ATTRIBUTE_NAME mungkin berisi pasangan nilai atribut yang menentukan item yang menarik, seperti Model = 'Water bottle', dan kolom ATTRIBUTE_VALUE hanya akan berisi kata kunci yang Ada atau Hilang.

DUKUNGAN
Jumlah kasus yang memiliki pasangan atribut-nilai ini, atau yang berisi item atau aturan ini.

Secara umum, untuk setiap simpul, nilai dukungan memberi tahu Anda berapa banyak kasus dalam set pelatihan yang disertakan dalam simpul saat ini. Di sebagian besar jenis model, dukungan mewakili jumlah kasus yang tepat. Nilai dukungan berguna karena Anda bisa menampilkan distribusi data dalam kasus pelatihan Anda tanpa harus mengkueri data pelatihan. Server Analysis Services juga menggunakan nilai yang disimpan ini untuk menghitung probabilitas tersimpan versus probabilitas sebelumnya, untuk menentukan apakah inferensi kuat atau lemah.

Misalnya, dalam pohon klasifikasi, nilai dukungan menunjukkan jumlah kasus yang memiliki kombinasi atribut yang dijelaskan.

Dalam pohon keputusan, jumlah dukungan di setiap tingkat pohon menjumlahkan dukungan simpul induknya. Misalnya, jika model yang berisi 1200 kasus dibagi secara merata berdasarkan jenis kelamin, dan kemudian dibagi secara merata dengan tiga nilai untuk simpul node Pendapatan Rendah, Sedang, dan Tinggi anak (2), yaitu simpul (4), (5) dan (6), selalu jumlahkan ke jumlah kasus yang sama dengan simpul (2).

ATRIBUT NODE ID dan node Jumlah dukungan
(1) Akar model 1200
(2) Jenis Kelamin = Pria

(3) Jenis Kelamin = Perempuan
600

600
(4) Jenis Kelamin = Pria dan Pendapatan = Tinggi

(5) Jenis Kelamin = Pria dan Pendapatan = Sedang

(6) Jenis Kelamin = Pria dan Pendapatan = Rendah
200

200

200
(7) Jenis Kelamin = Perempuan dan Pendapatan = Tinggi

(8) Jenis Kelamin = Perempuan dan Pendapatan = Sedang

(9) Jenis Kelamin = Perempuan dan Pendapatan = Rendah
200

200

200

Untuk model pengklusteran, jumlah dukungan dapat ditimbang untuk menyertakan probabilitas milik beberapa kluster. Keanggotaan beberapa kluster adalah metode pengklusteran default. Dalam skenario ini, karena setiap kasus tidak selalu milik satu dan hanya satu kluster, dukungan dalam model ini mungkin tidak menambahkan hingga 100 persen di semua kluster.

PROBABILITAS
Menunjukkan probabilitas untuk simpul tertentu ini dalam seluruh model.

Umumnya, probabilitas mewakili dukungan untuk nilai tertentu ini, dibagi dengan jumlah total kasus dalam simpul (NODE_SUPPORT).

Namun, probabilitas sedikit disesuaikan untuk menghilangkan bias yang disebabkan oleh nilai yang hilang dalam data.

Misalnya, jika nilai saat ini untuk [Total Anak] adalah 'Satu' dan 'Dua', Anda ingin menghindari pembuatan model yang memprediksi bahwa tidak mungkin untuk tidak memiliki anak, atau memiliki tiga anak. Untuk memastikan bahwa nilai yang hilang tidak mungkin, tetapi bukan tidak mungkin, algoritma selalu menambahkan 1 ke hitungan nilai aktual untuk atribut apa pun.

Contoh:

Probabilitas [Total Anak = Satu] = [Jumlah kasus di mana Total Anak = Satu] + 1/[Hitungan semua kasus] + 3

Probabilitas [Total Anak = Dua]= [Jumlah kasus di mana Total Anak = Dua] +1/[Jumlah semua kasus] +3

Catatan

Penyesuaian 3 dihitung dengan menambahkan 1 ke jumlah total nilai yang ada, n.

Setelah penyesuaian, probabilitas untuk semua nilai masih bertambah hingga 1. Probabilitas untuk nilai tanpa data (dalam contoh ini, [Total Anak = 'Nol', 'Tiga', atau beberapa nilai lainnya]), dimulai pada tingkat non-nol yang sangat rendah, dan naik perlahan karena lebih banyak kasus ditambahkan.

VARIANS
Menunjukkan varian nilai dalam simpul. Menurut definisi, varians selalu 0 untuk nilai diskrit. Jika model mendukung nilai berkelanjutan, varians dihitung sebagai σ (sigma), menggunakan denominator n, atau jumlah kasus dalam simpul.

Ada dua definisi yang digunakan secara umum untuk mewakili simpantan standar (StDev). Salah satu metode untuk menghitung simpangihan standar memperhitungkan bias, dan metode lain menghitung simpangihan standar tanpa menggunakan bias. Secara umum, algoritma penambangan data Microsoft tidak menggunakan bias saat menghitung simpangan baku.

Nilai yang muncul dalam tabel NODE_DISTRIBUTION adalah nilai aktual untuk semua atribut diskret dan diskret, dan rata-rata untuk nilai berkelanjutan.

VALUE_TYPE
Menunjukkan jenis data nilai atau atribut, dan penggunaan nilai. Jenis nilai tertentu hanya berlaku untuk jenis model tertentu:

VALUE_TYPE ID Label Nilai Nama Tipe Nilai
1 Tidak ada Menunjukkan bahwa data kasus tidak berisi nilai untuk atribut ini. Status Hilang dihitung secara terpisah dari atribut yang memiliki nilai.
2 Yang Sudah Ada Menunjukkan bahwa data kasus berisi nilai untuk atribut ini.
3 Berkelanjutan Menunjukkan bahwa nilai atribut adalah nilai numerik berkelanjutan dan oleh karena itu dapat diwakili oleh rata-rata, bersama dengan varians dan simpannan baku.
4 Diskrit Menunjukkan nilai, baik numerik atau teks, yang diperlakukan sebagai diskrit.

Catatan Nilai diskrit juga dapat hilang; namun, mereka ditangani secara berbeda saat membuat perhitungan. Untuk informasi, lihat Nilai yang Hilang (Analysis Services - Penggalian Data).
5 Didiskretisasi Menunjukkan bahwa atribut berisi nilai numerik yang telah didiskretisasi. Nilai akan menjadi string berformat yang menjelaskan wadah diskretisasi.
6 Yang Sudah Ada Menunjukkan bahwa atribut memiliki nilai numerik berkelanjutan dan bahwa nilai telah disediakan dalam data, vs. nilai yang hilang atau disimpulkan.
7 Koefisien Menunjukkan nilai numerik yang mewakili koefisien.

Koefisien adalah nilai yang diterapkan saat menghitung nilai variabel dependen. Misalnya, jika model Anda membuat rumus regresi yang memprediksi pendapatan berdasarkan usia, koefisien digunakan dalam rumus yang berkaitan dengan usia dengan pendapatan.
8 Perolehan skor Menunjukkan nilai numerik yang mewakili perolehan skor untuk atribut .
9 Statistik Menunjukkan nilai numerik yang mewakili statistik untuk regresor.
10 Nama unik simpul Menunjukkan bahwa nilai tidak boleh ditangani bukan sebagai numerik atau string, tetapi sebagai pengidentifikasi unik node konten lain dalam model.

Misalnya, dalam model jaringan neural, ID menyediakan pointer dari simpul di lapisan output ke simpul di lapisan tersembunyi, dan dari simpul di lapisan tersembunyi ke simpul di lapisan input.
11 Mencegat Menunjukkan nilai numerik yang mewakili intersepsi dalam rumus regresi.
12 Periodisitas Menunjukkan bahwa nilai menunjukkan struktur berkala dalam model.

Hanya berlaku untuk model rangkaian waktu yang berisi model ARIMA.

Catatan: Algoritma Microsoft Time Series secara otomatis mendeteksi struktur berkala berdasarkan data pelatihan. Akibatnya, periode dalam model akhir dapat mencakup nilai periodisitas yang tidak Anda berikan sebagai parameter saat membuat model.
13 Urutan regresif otomatis Menunjukkan bahwa nilai mewakili jumlah seri autoregressive.

Berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
14 Urutan rata-rata bergerak Mewakili nilai yang menunjukkan jumlah rata-rata pergerakan dalam seri.

Berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
15 Urutan perbedaan Menunjukkan bahwa nilai mewakili nilai yang menunjukkan berapa kali seri dibingkai.

Berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
16 Boolean Mewakili jenis Boolean.
17 Lainnya Mewakili nilai kustom yang ditentukan oleh algoritma.
18 String yang telah dirender sebelumnya Mewakili nilai kustom yang dirender algoritma sebagai string. Tidak ada pemformatan yang diterapkan oleh model objek.

Jenis nilai berasal dari enumerasi ADMOMD.NET. Untuk informasi selengkapnya, lihat Microsoft.AnalysisServices.AdomdServer.MiningValueType.

Skor Simpul

Arti skor simpul berbeda tergantung pada jenis model, dan juga dapat spesifik untuk jenis node. Untuk informasi tentang cara NODE_SCORE dihitung untuk setiap model dan jenis node, lihat Menambang Konten Model berdasarkan Jenis Algoritma.

Probabilitas Simpul dan Probabilitas Marginal

Kumpulan baris skema model penambangan mencakup kolom NODE_PROBABILITY dan MARGINAL_PROBABILITY untuk semua jenis model. Kolom ini hanya berisi nilai dalam simpul di mana nilai probabilitas bermakna. Misalnya, simpul akar model tidak pernah berisi skor probabilitas.

Dalam simpul yang memberikan skor probabilitas, probabilitas simpul dan probabilitas marginal mewakili perhitungan yang berbeda.

  • Probabilitas marginal adalah probabilitas mencapai simpul dari induknya.

  • Probabilitas simpul adalah probabilitas untuk mencapai simpul dari akar.

  • Probabilitas simpul selalu kurang dari atau sama dengan probabilitas marginal.

Misalnya, jika populasi semua pelanggan dalam pohon keputusan dibagi secara merata berdasarkan jenis kelamin (dan tidak ada nilai yang hilang), probabilitas simpul anak harus .5. Namun, misalkan bahwa setiap node untuk jenis kelamin dibagi rata dengan tingkat pendapatan-Tinggi, Sedang, dan Rendah. Dalam hal ini skor MARGINAL_PROBABILITY untuk setiap simpul anak harus selalu .33 tetapi nilai NODE_PROBABILTY akan menjadi produk dari semua probabilitas yang mengarah ke simpul tersebut dan dengan demikian selalu kurang dari nilai MARGINAL_PROBABILITY.

Tingkat node/atribut dan nilai Probabilitas marginal Probabilitas simpul
Akar model

Semua pelanggan target
1 1
Target pelanggan dibagi berdasarkan jenis kelamin .5 .5
Target pelanggan dibagi berdasarkan jenis kelamin, dan dibagi lagi tiga cara berdasarkan pendapatan .33 .5 * .33 = .165

Aturan Simpul dan Aturan Marginal

Kumpulan baris skema model penambangan juga menyertakan kolom NODE_RULE dan MARGINAL_RULE untuk semua jenis model. Kolom ini berisi fragmen XML yang dapat digunakan untuk menserialisasikan model, atau untuk mewakili beberapa bagian dari struktur model. Kolom ini mungkin kosong untuk beberapa simpul, jika nilai tidak berarti.

Dua jenis aturan XML disediakan, mirip dengan dua jenis nilai probabilitas. Fragmen XML dalam MARGINAL_RULE menentukan atribut dan nilai untuk simpul saat ini, sedangkan fragmen XML di NODE_RULE menjelaskan jalur ke simpul saat ini dari akar model.

Konten Model Penambangan berdasarkan Jenis Algoritma

Setiap algoritma menyimpan berbagai jenis informasi sebagai bagian dari skema kontennya. Misalnya, Algoritma Pengklusteran Microsoft menghasilkan banyak simpul anak, yang masing-masing mewakili kluster yang mungkin. Setiap node kluster berisi aturan yang menjelaskan karakteristik yang dibagikan oleh item dalam kluster. Sebaliknya, algoritma Regresi Linier Microsoft tidak berisi simpul anak; sebaliknya, simpul induk untuk model berisi persamaan yang menjelaskan hubungan linier yang ditemukan oleh analisis.

Tabel berikut ini menyediakan tautan ke topik untuk setiap jenis algoritma.

  • Topik konten model: Jelaskan arti dari setiap jenis node untuk setiap jenis algoritma, dan berikan panduan tentang simpul mana yang paling diminati dalam jenis model tertentu.

  • Mengkueri topik: Berikan contoh kueri terhadap jenis model tertentu dan panduan tentang cara menginterpretasikan hasilnya.

Algoritma atau Jenis Model Konten Model Mengkueri Model Penggalian
Model aturan asosiasi Menambang Konten Model untuk Model Asosiasi (Analysis Services - Penggalian Data) Contoh Kueri Model Asosiasi
Model pengklusteran Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Penggalian Data) Contoh Kueri Model Pengklusteran
Model pohon keputusan Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Penggalian Data) Contoh Kueri Model Pohon Keputusan
Model regresi linier Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data) Contoh Kueri Model Regresi Linier
Model regresi logistik Menambang Konten Model untuk Model Regresi Logistik (Analysis Services - Penggalian Data) Contoh Kueri Model Regresi Linier
Model Naïve Bayes Menambang Konten Model untuk Naive Bayes Models (Analysis Services - Data Mining) Contoh Kueri Model Naive Bayes
Model jaringan neural Menambang Konten Model untuk Model Jaringan Neural (Analysis Services - Penggalian Data) Contoh Kueri Model Jaringan Neural
Pengklusteran urutan Menambang Konten Model untuk Model Pengklusteran Urutan (Analysis Services - Penggalian Data) Contoh Kueri Model Pengklusteran Urutan
Model rangkaian waktu Menambang Konten Model untuk Model Deret Waktu (Analysis Services - Penggalian Data) Contoh Kueri Model Deret Waktu

Alat untuk Menampilkan Konten Model Penambangan

Saat menelusuri atau menjelajahi model di SQL Server Data Tools, Anda dapat melihat informasi di Penampil Pohon Konten Generik Microsoft, yang tersedia di SQL Server Data Tools dan SQL Server Management Studio.

Penampil Konten Generik Microsoft menampilkan kolom, aturan, properti, atribut, simpul, dan konten lainnya dari model dengan menggunakan informasi yang sama yang tersedia dalam kumpulan baris skema konten model penambangan. Kumpulan baris skema konten adalah kerangka kerja umum untuk menyajikan informasi terperinci tentang konten model penambangan data. Anda dapat melihat konten model di klien mana pun yang mendukung set baris hierarkis. Penampil di SQL Server Data Tools menyajikan informasi ini dalam penampil tabel HTML yang mewakili semua model dalam format yang konsisten, sehingga lebih mudah untuk memahami struktur model yang Anda buat. Untuk informasi selengkapnya, lihat Menelusuri Model Menggunakan Penampil Pohon Konten Generik Microsoft.

Alat untuk Mengkueri Konten Model Penambangan

Untuk mengambil konten model penambangan, Anda harus membuat kueri terhadap model penambangan data.

Cara term mudah untuk membuat kueri konten adalah dengan menjalankan pernyataan DMX berikut dalam SQL Server Management Studio:

SELECT * FROM [<mining model name>].CONTENT  

Untuk informasi selengkapnya, lihat Kueri Penggalian Data.

Anda juga dapat mengkueri konten model penambangan dengan menggunakan himpunan baris skema penggalian data. Kumpulan baris skema adalah struktur standar yang digunakan klien untuk menemukan, menelusuri, dan mengkueri informasi tentang struktur dan model penambangan. Anda dapat mengkueri kumpulan baris skema dengan menggunakan pernyataan XMLA, Transact-SQL, atau DMX.

Pada SQL Server 2017, Anda juga dapat mengakses informasi dalam kumpulan baris skema penggalian data dengan membuka koneksi ke instans SQL Server Analysis Services dan mengkueri tabel sistem. Untuk informasi selengkapnya, lihat Himpunan Baris Skema Penggalian Data (SSA).

Lihat juga

Penampil Pohon Konten Generik Microsoft (Penggalian Data)
Algoritma Penggalian Data (Analysis Services - Penggalian Data)