Bagikan melalui


Konten Model Penambangan (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan versi Analysis Services sebelumnya Azure Analysis Services Fabric/Power BI Premium

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Setelah Anda merancang dan memproses model penambangan menggunakan data dari struktur penambangan yang mendasar, model penambangan selesai dan berisi konten model penambangan. Anda dapat menggunakan konten ini untuk membuat prediksi atau menganalisis data Anda.

Konten model penambangan mencakup metadata tentang model, statistik tentang data, dan pola yang ditemukan oleh algoritma penambangan. Tergantung pada algoritma yang digunakan, konten model dapat mencakup rumus regresi, definisi aturan dan itemet, atau bobot dan statistik lainnya.

Terlepas dari algoritma yang digunakan, konten model penambangan disajikan dalam struktur standar. Anda dapat menelusuri struktur di Penampil Pohon Konten Generik Microsoft, yang disediakan di SQL Server Data Tools, lalu beralih ke salah satu penampil kustom untuk melihat bagaimana informasi ditafsirkan dan ditampilkan secara grafis untuk setiap jenis model. Anda juga dapat membuat kueri terhadap konten model penambangan dengan menggunakan klien apa pun yang mendukung kumpulan baris skema MINING_MODEL_CONTENT. Untuk informasi selengkapnya, lihat Tugas dan Cara Penggunaan Kueri Penggalian Data.

Bagian ini menjelaskan struktur dasar konten yang disediakan untuk semua jenis model penambangan. Ini menjelaskan jenis node yang umum untuk semua konten model penambangan, dan memberikan panduan tentang cara menginterpretasikan informasi.

Struktur Konten Model Penambangan

Simpul dalam Konten Model

Menambang Konten Model berdasarkan Jenis Algoritma

Alat untuk Menampilkan Konten Model Penambangan

Alat untuk Mengkueri Konten Model Penambangan

Struktur Konten Model Penambangan

Konten setiap model disajikan sebagai serangkaian simpul. Simpul adalah objek dalam model penambangan yang berisi metadata dan informasi tentang sebagian model. Simpul diatur dalam hierarki. Pengaturan node yang tepat dalam hierarki, dan arti hierarki, tergantung pada algoritma yang Anda gunakan. Misalnya, jika Anda membuat model pohon keputusan, model dapat berisi beberapa pohon, semuanya terhubung ke akar model; jika Anda membuat model jaringan neural, model mungkin berisi satu atau beberapa jaringan, ditambah node statistik.

Simpul pertama di setiap model disebut simpul akar, atau simpul induk model . Setiap model memiliki simpul akar (NODE_TYPE = 1). Node akar biasanya berisi beberapa metadata tentang model, dan jumlah simpul anak, tetapi sedikit informasi tambahan tentang pola yang ditemukan oleh model.

Bergantung pada algoritma mana yang Anda gunakan untuk membuat model, simpul akar memiliki jumlah simpul anak yang bervariasi. Simpul anak memiliki arti yang berbeda dan berisi konten yang berbeda, tergantung pada algoritma serta kedalaman dan kompleksitas data.

Node dalam Konten Model Penambangan

Dalam model penambangan, simpul adalah kontainer tujuan umum yang menyimpan informasi tentang semua atau sebagian model. Struktur setiap simpul selalu sama, dan berisi kolom yang ditentukan oleh kumpulan baris skema penambangan data.

Setiap simpul menyertakan metadata tentang simpul, termasuk pengidentifikasi yang unik dalam setiap model, ID simpul induk, dan jumlah simpul anak yang dimiliki simpul. Metadata mengidentifikasi model tempat simpul berada, dan katalog database tempat model tertentu disimpan. Konten tambahan yang disediakan dalam simpul berbeda tergantung pada jenis algoritma yang Anda gunakan untuk membuat model, dan mungkin termasuk yang berikut ini:

  • Jumlah kasus dalam data pelatihan yang mendukung nilai tertentu yang diprediksi.

  • Statistik, seperti rata-rata, simpang siur standar, atau varians.

  • Koefisien dan rumus.

  • Definisi aturan dan penunjuk lateral.

  • Fragmen XML yang menjelaskan sebagian model.

Daftar Jenis Node Konten Penambangan

Tabel berikut mencantumkan berbagai jenis simpul yang merupakan output dalam model penambangan data. Karena setiap algoritma memproses informasi secara berbeda, setiap model hanya menghasilkan beberapa jenis node tertentu. Jika Anda mengubah algoritma, jenis simpul dapat berubah. Selain itu, jika Anda memproses ulang model, konten setiap simpul dapat berubah.

Nota

Jika Anda menggunakan layanan penggalian data yang berbeda, atau jika Anda membuat algoritma plug-in Anda sendiri, jenis node kustom tambahan mungkin tersedia.

NODE_TYPE ID Label Simpul Isi Simpul
1 Model Metadata dan simpul konten akar. Berlaku untuk semua jenis model.
2 Tree Simpul akar pohon klasifikasi. Berlaku untuk model pohon keputusan.
3 Ruang Dalam Simpul pemisah interior di pohon. Berlaku untuk model pohon keputusan.
4 Distribusi Simpul terminal dari pohon. Berlaku untuk model pohon keputusan.
5 Kelompok Kluster terdeteksi oleh algoritma. Berlaku untuk model pengklusteran dan model pengklusteran urutan.
6 Unknown Jenis node yang tidak diketahui.
7 ItemSet Kumpulan item terdeteksi oleh algoritma. Berlaku untuk model asosiasi atau model pengklusteran urutan.
8 Aturan Asosiasi Aturan asosiasi terdeteksi oleh algoritma. Berlaku untuk model asosiasi atau model pengklusteran urutan.
9 PredictableAttribute Atribut yang dapat diprediksi. Berlaku untuk semua jenis model.
10 InputAttribute Input atribut. Berlaku untuk pohon keputusan dan model Naïve Bayes.
11 InputAttributeState Statistik tentang status atribut input. Berlaku untuk pohon keputusan dan model Naïve Bayes.
13 Urutan Simpul teratas untuk komponen model Markov dari urutan kluster. Berlaku untuk pemodelan kluster urutan.
14 Transisi Matriks transisi Markov. Berlaku untuk model pengelompokan urutan.
15 Deret Waktu Simpul non-akar dari pohon rangkaian waktu. Hanya berlaku untuk model rangkaian waktu.
16 TsTree Simpul akar pohon rangkaian waktu yang sesuai dengan rangkaian waktu yang dapat diprediksi. Berlaku untuk model rangkaian waktu, dan hanya jika model dibuat menggunakan parameter MIXED.
17 NNetSubnetwork Satu sub-jaringan. Berlaku untuk model jaringan neural.
18 NNetInputLayer Grup yang berisi node pada lapisan input. Berlaku untuk model jaringan neural.
19 NNetHiddenLayer Grup-grup yang mengandung simpul-simpul yang menggambarkan lapisan tersembunyi. Berlaku untuk model jaringan neural.
21 NNetOutputLayer Grup-grup yang berisi node dari lapisan output. Berlaku untuk model jaringan neural.
21 NNetInputNode Simpul dalam lapisan input yang mencocokkan atribut input dengan keadaan yang sesuai. Berlaku untuk model jaringan neural.
22 NNetHiddenNode Simpul di lapisan tersembunyi. Berlaku untuk model jaringan neural.
23 NNetOutputNode Simpul dalam lapisan output. Simpul ini biasanya akan cocok dengan atribut keluaran dan keadaan yang sesuai. Berlaku untuk model jaringan neural.
24 NNetMarginalNode Statistik marjinal tentang dataset pelatihan. Berlaku untuk model jaringan neural.
Dua puluh lima RegressionTreeRoot Akar pohon regresi. Berlaku untuk model regresi linier dan untuk model pohon keputusan yang berisi atribut input berkelanjutan.
26 NaiveBayesMarginalStatNode Statistik marginal tentang set pelatihan. Berlaku untuk model Naïve Bayes.
27 ArimaRoot Simpul akar model ARIMA. Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
28 Struktur Periodik Arima Struktur berkala dalam model ARIMA. Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
29 ArimaAutoRegressive Koefisien regresif otomatis untuk satu istilah dalam model ARIMA.

Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
30 ArimaMovingAverage Memindahkan koefisien rata-rata untuk satu istilah dalam model ARIMA. Hanya berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
1000 CustomBase Titik awal untuk jenis node kustom. Jenis simpul kustom harus berupa bilangan bulat yang lebih besar nilainya daripada konstanta ini. Berlaku untuk model yang dibuat dengan menggunakan algoritma plug-in kustom.

ID Node, Nama, Keterangan, dan Deskripsi

Simpul akar dari setiap model selalu memiliki ID unik (NODE_UNIQUE_NAME) 0. Semua ID node ditetapkan secara otomatis oleh Analysis Services dan tidak dapat dimodifikasi.

Simpul akar untuk setiap model juga berisi beberapa metadata dasar tentang model. Metadata ini mencakup database Analysis Services tempat model disimpan (MODEL_CATALOG), skema (MODEL_SCHEMA), dan nama model (MODEL_NAME). Namun, informasi ini diulang di semua simpul model, jadi Anda tidak perlu mengkueri simpul akar untuk mendapatkan metadata ini.

Selain nama yang digunakan sebagai pengidentifikasi unik, setiap simpul memiliki nama (NODE_NAME). Nama ini secara otomatis dibuat oleh algoritma untuk tujuan tampilan dan tidak dapat diedit.

Nota

Algoritma Pengklusteran Microsoft memungkinkan pengguna untuk menetapkan nama yang mudah diingat ke setiap kluster. Namun, nama-nama ramah ini tidak bertahan di server, dan jika Anda memproses ulang model, algoritma akan menghasilkan nama kluster baru.

Keterangan dan deskripsi untuk setiap simpul secara otomatis dihasilkan oleh algoritma, dan berfungsi sebagai label untuk membantu Anda memahami konten simpul. Teks yang dihasilkan untuk setiap bidang tergantung pada jenis model. Dalam beberapa kasus, nama, keterangan, dan deskripsi mungkin berisi string yang sama persis, tetapi dalam beberapa model, deskripsi mungkin berisi informasi tambahan. Lihat topik tentang jenis model individual untuk detail implementasinya.

Nota

Server Analysis Services mendukung penggantian nama simpul hanya jika Anda membuat model dengan menggunakan algoritma plug-in kustom yang mengimplementasikan penggantian nama, . Untuk mengaktifkan penggantian nama, Anda harus mengambil alih metode saat membuat algoritma plug-in.

Induk Node, Anak Node, dan Kardinalitas Node

Hubungan antara simpul induk dan anak dalam struktur pohon ditentukan oleh nilai kolom PARENT_UNIQUE_NAME. Nilai ini disimpan dalam simpul anak dan memberi tahu Anda ID simpul induk. Beberapa contoh mengikuti bagaimana informasi ini dapat digunakan:

  • PARENT_UNIQUE_NAME yang NULL berarti bahwa simpul tersebut adalah simpul utama dalam model.

  • Jika nilai PARENT_UNIQUE_NAME adalah 0, simpul harus merupakan turunan langsung dari node teratas dalam model. Ini karena ID simpul akar selalu 0.

  • Anda dapat menggunakan fungsi dalam kueri Ekstensi Penambangan Data (DMX) untuk menemukan turunan atau induk simpul tertentu. Untuk informasi selengkapnya tentang menggunakan fungsi dalam kueri, lihat Kueri Penggalian Data.

Kardinalitas mengacu pada jumlah item dalam satu set. Dalam konteks model penambangan yang diproses, kardinalitas memberi tahu Anda jumlah anak dalam simpul tertentu. Misalnya, jika model pohon keputusan memiliki simpul untuk [Pendapatan Tahunan], dan simpul tersebut memiliki dua simpul anak, satu untuk kondisi [Pendapatan Tahunan] = Tinggi dan satu untuk kondisi, [Pendapatan Tahunan] = Rendah, nilai CHILDREN_CARDINALITY untuk simpul [Pendapatan Tahunan] adalah 2.

Nota

Di SQL Server Analysis Services, hanya simpul anak langsung yang dihitung saat menghitung kardinalitas simpul. Namun, jika Anda membuat algoritma plug-in kustom, Anda dapat membebani CHILDREN_CARDINALITY untuk menghitung kardinalitas secara berbeda. Ini mungkin berguna, misalnya, jika Anda ingin menghitung jumlah total keturunan, bukan hanya anak-anak langsung.

Meskipun kardinalitas dihitung dengan cara yang sama untuk semua model, bagaimana Anda menafsirkan atau menggunakan nilai kardinalitas berbeda tergantung pada jenis model. Misalnya, dalam model pengklusteran, kardinalitas simpul teratas memberi tahu Anda jumlah total kluster yang ditemukan. Dalam jenis model lain, kardinalitas mungkin selalu memiliki nilai yang ditetapkan tergantung pada jenis node. Untuk informasi selengkapnya tentang cara menginterpretasikan kardinalitas, lihat topik tentang jenis model individual.

Nota

Beberapa model, seperti yang dibuat oleh algoritma Microsoft Neural Network, juga berisi jenis node khusus yang menyediakan statistik deskriptif tentang data pelatihan untuk seluruh model. Menurut definisi, simpul ini tidak pernah memiliki simpul turunan.

Distribusi Simpul

Kolom NODE_DISTRIBUTION berisi tabel berlapis yang dalam banyak simpul menyediakan informasi penting dan terperinci tentang pola yang ditemukan oleh algoritma. Statistik yang tepat yang disediakan dalam tabel ini berubah tergantung pada jenis model, posisi simpul di pohon, dan apakah atribut yang dapat diprediksi adalah nilai numerik berkelanjutan atau nilai diskrit; namun, mereka dapat menyertakan nilai minimum dan maksimum atribut, bobot yang ditetapkan ke nilai, jumlah kasus dalam simpul, koefisien yang digunakan dalam rumus regresi, dan langkah-langkah statistik seperti simpangan baku dan varians. Untuk informasi selengkapnya tentang cara menginterpretasikan distribusi simpul, lihat topik untuk jenis model tertentu yang sedang Anda kerjakan.

Nota

Tabel NODE_DISTRIBUTION mungkin kosong, tergantung pada jenis node. Misalnya, beberapa simpul hanya berfungsi untuk mengatur kumpulan simpul anak, dan itu adalah simpul anak yang berisi statistik terperinci.

Tabel berlapis, NODE_DISTRIBUTION, selalu berisi kolom berikut. Konten setiap kolom bervariasi tergantung pada jenis model. Untuk informasi selengkapnya tentang jenis model tertentu, lihat Menambang Konten Model berdasarkan Jenis Algoritma.

ATTRIBUTE_NAME
Konten bervariasi menurut algoritma. Bisa menjadi nama kolom, seperti atribut yang dapat diprediksi, aturan, itemet, atau informasi internal algoritma, seperti bagian dari rumus.

Kolom ini juga dapat berisi pasangan atribut-nilai.

NILAI_ATRIBUT
Nilai atribut yang diberi nama dalam ATTRIBUTE_NAME.

Jika nama atribut adalah kolom, maka dalam kasus yang paling mudah, ATTRIBUTE_VALUE berisi salah satu nilai diskrit untuk kolom tersebut.

Bergantung pada bagaimana algoritma memproses nilai, ATTRIBUTE_VALUE juga dapat berisi bendera yang memberi tahu Anda apakah ada nilai untuk atribut (Ada), atau apakah nilainya null (Hilang).

Misalnya, jika model Anda disiapkan untuk menemukan pelanggan yang telah membeli item tertentu setidaknya sekali, kolom ATTRIBUTE_NAME mungkin berisi pasangan nilai atribut yang menentukan item yang menarik, seperti Model = 'Water bottle', dan kolom ATTRIBUTE_VALUE hanya akan berisi kata kunci Yang Ada atau Hilang.

DUKUNGAN
Jumlah kasus yang memiliki pasangan atribut-nilai ini, atau yang berisi itemet atau aturan ini.

Secara umum, untuk setiap simpul, nilai dukungan memberi tahu Anda berapa banyak kasus dalam set pelatihan yang disertakan dalam simpul saat ini. Di sebagian besar jenis model, dukungan mewakili jumlah kasus yang tepat. Nilai dukungan berguna karena Anda bisa menampilkan distribusi data dalam kasus pelatihan Anda tanpa harus mengkueri data pelatihan. Server Analysis Services juga menggunakan nilai tersimpan ini untuk menghitung probabilitas tersimpan versus probabilitas sebelumnya, untuk menentukan apakah inferensi kuat atau lemah.

Misalnya, dalam pohon klasifikasi, nilai dukungan menunjukkan jumlah kasus yang memiliki kombinasi atribut yang dijelaskan.

Dalam pohon keputusan, jumlah dukungan di setiap tingkat dari pohon tersebut sama dengan dukungan simpul induknya. Misalnya, jika model yang berisi 1200 kasus dibagi rata menurut gender, dan kemudian dibagi lagi secara merata dengan tiga nilai untuk Pendapatan-Rendah, Sedang, dan Tinggi-anak simpul dari simpul (2), yang merupakan simpul (4), (5), dan (6), selalu berjumlah sama dengan jumlah kasus pada simpul (2).

Id node dan atribut node Jumlah dukungan
(1) Akar model 1200
(2) Jenis Kelamin = Pria

(3) Jenis Kelamin = Perempuan
600

600
(4) Jenis Kelamin = Pria dan Pendapatan = Tinggi

(5) Jenis Kelamin = Pria dan Pendapatan = Sedang

(6) Jenis Kelamin = Pria dan Pendapatan = Rendah
200

200

200
(7) Jenis Kelamin = Perempuan dan Pendapatan = Tinggi

(8) Jenis Kelamin = Perempuan dan Pendapatan = Sedang

(9) Jenis Kelamin = Perempuan dan Pendapatan = Rendah
200

200

200

Untuk model pengklusteran, angka dukungan dapat ditimbang untuk memasukkan probabilitas termasuk dalam berbagai klaster. Beberapa keanggotaan kluster adalah metode pengklusteran default. Dalam skenario ini, karena setiap kasus tidak selalu termasuk dalam satu dan hanya satu kluster, dukungan dalam model ini mungkin tidak menambahkan hingga 100 persen di semua kluster.

PROBABILITAS
Menunjukkan probabilitas untuk simpul tertentu ini dalam seluruh model.

Umumnya, probabilitas mewakili dukungan untuk nilai khusus ini, dibagi dengan jumlah total kasus dalam simpul (NODE_SUPPORT).

Namun, probabilitas sedikit disesuaikan untuk menghilangkan bias yang disebabkan oleh nilai yang hilang dalam data.

Misalnya, jika nilai saat ini untuk [Total Anak] adalah 'Satu' dan 'Dua', Anda ingin menghindari pembuatan model yang memprediksi bahwa tidak mungkin tidak memiliki anak, atau memiliki tiga anak. Untuk memastikan bahwa nilai yang hilang tidak mungkin, tetapi bukan tidak mungkin, algoritma selalu menambahkan 1 ke hitungan nilai aktual untuk atribut apa pun.

Contoh:

Probabilitas [Total Anak = Satu] = [Jumlah kasus di mana Total Anak = Satu] + 1/[Jumlah semua kasus] + 3

Probabilitas [Total Anak = Dua]= [Jumlah kasus di mana Total Anak = Dua] +1/[Jumlah semua kasus] +3

Nota

Penyesuaian 3 dihitung dengan menambahkan 1 ke jumlah total nilai yang ada, n.

Setelah penyesuaian, probabilitas untuk semua nilai masih bertambah hingga 1. Probabilitas untuk nilai tanpa data (dalam contoh ini, [Total Anak = 'Nol', 'Tiga', atau beberapa nilai lainnya]), dimulai pada tingkat non-nol yang sangat rendah, dan naik perlahan saat lebih banyak kasus ditambahkan.

VARIANSI
Menunjukkan varians nilai dalam simpul. Menurut definisi, varians selalu 0 untuk nilai diskrit. Jika model mendukung nilai berkelanjutan, varians dihitung sebagai σ (sigma), menggunakan denominator n, atau jumlah kasus dalam simpul.

Ada dua definisi yang umum digunakan untuk mewakili simpangan standar (StDev). Salah satu metode untuk menghitung penyimpangan standar memperhitungkan bias, dan metode lain menghitung penyimpangan standar tanpa menggunakan bias. Secara umum, algoritma penambangan data Microsoft tidak menggunakan bias saat menghitung simpangan baku.

Nilai yang muncul dalam tabel NODE_DISTRIBUTION adalah nilai aktual untuk semua atribut diskrit dan diskret, dan rata-rata untuk nilai berkelanjutan.

VALUE_TYPE
Menunjukkan jenis data nilai atau atribut, dan penggunaan nilai. Jenis nilai tertentu hanya berlaku untuk jenis model tertentu:

VALUE_TYPE ID Label Nilai Nama Tipe Nilai
1 Hilang Menunjukkan bahwa data kasus tidak berisi nilai untuk atribut ini. Status Hilang dihitung secara terpisah dari atribut yang memiliki nilai.
2 Yang Sudah Ada Menunjukkan bahwa data kasus berisi nilai untuk atribut ini.
3 Berkelanjutan Menunjukkan bahwa nilai atribut adalah nilai numerik berkelanjutan dan oleh karena itu dapat diwakili oleh rata-rata, bersama dengan variansi dan simpannan standar.
4 Tersendiri Menunjukkan nilai, baik numerik atau teks, yang diperlakukan sebagai diskrit.

Catatan Nilai diskrit juga dapat hilang; namun, mereka ditangani secara berbeda saat membuat perhitungan. Untuk informasi, lihat Nilai yang Hilang (Analysis Services - Data Mining).
5 Didisretisasi Menunjukkan bahwa atribut berisi nilai numerik yang telah didiskretisasi. Nilai akan menjadi string berformat yang menjelaskan wadah diskretisasi.
6 Yang Sudah Ada Menunjukkan bahwa atribut memiliki nilai numerik berkelanjutan dan nilai tersebut telah disediakan dalam data, vs. nilai yang hilang atau disimpulkan.
7 Koefisien Menunjukkan nilai numerik yang mewakili koefisien.

Koefisien adalah nilai yang diterapkan saat menghitung nilai variabel dependen. Misalnya, jika model Anda membuat rumus regresi yang memprediksi pendapatan berdasarkan usia, koefisien digunakan dalam rumus yang berkaitan dengan usia dengan pendapatan.
8 Peningkatan skor Menunjukkan nilai numerik yang mewakili perolehan skor untuk atribut .
9 Statistics Menunjukkan nilai numerik yang mewakili statistik untuk regresi.
10 Nama unik node Menunjukkan bahwa nilai tidak boleh ditangani bukan sebagai numerik atau string, tetapi sebagai pengidentifikasi unik node konten lain dalam model.

Misalnya, dalam model jaringan neural, ID menyediakan pointer dari simpul di lapisan output ke node di lapisan tersembunyi, dan dari simpul di lapisan tersembunyi ke node di lapisan input.
11 Adang Menunjukkan nilai numerik yang mewakili intersepsi dalam rumus regresi.
12 Periodisitas Menunjukkan bahwa nilai menunjukkan struktur berkala dalam model.

Hanya berlaku untuk model rangkaian waktu yang berisi model ARIMA.

Catatan: Algoritma Microsoft Time Series secara otomatis mendeteksi struktur berkala berdasarkan data pelatihan. Akibatnya, periode dalam model akhir dapat mencakup nilai periodisitas yang tidak Anda berikan sebagai parameter saat membuat model.
13 Urutan regresif otomatis Menunjukkan bahwa nilai tersebut mewakili jumlah seri autoregresif.

Berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
14 Memindahkan urutan rata-rata Menggambarkan nilai yang menunjukkan jumlah rata-rata bergerak dalam sebuah seri.

Berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
15 Urutan perbedaan Menunjukkan bahwa nilai tersebut mewakili jumlah berapa kali seri tersebut terdiferensiasi.

Berlaku untuk model rangkaian waktu yang menggunakan algoritma ARIMA.
16 Boolean Mewakili jenis Boolean.
17 Other Mewakili nilai kustom yang ditentukan oleh algoritma.
18 String yang telah dirender sebelumnya Mewakili nilai kustom yang dirender algoritma sebagai string. Tidak ada pemformatan yang diterapkan oleh model objek.

Jenis nilai berasal dari enumerasi ADMOMD.NET. Untuk informasi selengkapnya, lihat Microsoft.AnalysisServices.AdomdServer.MiningValueType.

Skor Simpul

Arti skor simpul berbeda tergantung pada jenis model, dan juga dapat spesifik untuk jenis node. Untuk informasi tentang cara NODE_SCORE dihitung untuk setiap model dan jenis node, lihat Menambang Konten Model berdasarkan Jenis Algoritma.

Probabilitas Node dan Probabilitas Marginal

Kumpulan baris skema model penambangan mencakup kolom NODE_PROBABILITY dan MARGINAL_PROBABILITY untuk semua jenis model. Kolom ini hanya berisi nilai dalam simpul di mana nilai probabilitas bermakna. Misalnya, simpul akar model tidak pernah berisi skor probabilitas.

Dalam simpul yang memberikan skor probabilitas, probabilitas simpul dan probabilitas marginal mewakili perhitungan yang berbeda.

  • Probabilitas marginal adalah probabilitas mencapai simpul dari induknya.

  • Probabilitas node adalah probabilitas mencapai simpul dari akar.

  • Probabilitas simpul selalu kurang dari atau sama dengan probabilitas marginal.

Misalnya, jika populasi semua pelanggan dalam pohon keputusan dibagi secara merata berdasarkan jenis kelamin (dan tidak ada nilai yang hilang), probabilitas simpul anak harus 0,5. Namun, misalkan bahwa setiap node untuk jenis kelamin dibagi rata dengan tingkat pendapatan-Tinggi, Sedang, dan Rendah. Dalam hal ini, skor MARGINAL_PROBABILITY untuk setiap simpul anak harus selalu .33, tetapi nilai NODE_PROBABILITY akan menjadi produk dari semua probabilitas yang mengarah ke simpul tersebut dan dengan demikian selalu kurang dari nilai MARGINAL_PROBABILITY.

Tingkat simpul/atribut dan nilai Probabilitas marginal Probabilitas node
Akar model

Semua pelanggan target
1 1
Target pelanggan dibagi berdasarkan jenis kelamin .5 .5
Target pelanggan dibagi berdasarkan jenis kelamin, dan dibagi lagi tiga cara berdasarkan pendapatan .33 .5 * .33 = .165

Aturan Simpul dan Aturan Marginal

Kumpulan baris skema model penambangan juga menyertakan kolom NODE_RULE dan MARGINAL_RULE untuk semua jenis model. Kolom ini berisi fragmen XML yang dapat digunakan untuk menserialisasikan model, atau untuk mewakili beberapa bagian dari struktur model. Kolom ini mungkin kosong untuk beberapa simpul, karena nilainya tidak ada artinya.

Dua jenis aturan XML disediakan, mirip dengan dua jenis nilai probabilitas. Fragmen XML di MARGINAL_RULE menentukan atribut dan nilai untuk simpul saat ini, sedangkan fragmen XML di NODE_RULE menjelaskan jalur ke simpul saat ini dari akar model.

Menambang Konten Model berdasarkan Jenis Algoritma

Setiap algoritma menyimpan berbagai jenis informasi sebagai bagian dari skema kontennya. Misalnya, Algoritma Pengklusteran Microsoft menghasilkan banyak simpul anak, yang masing-masing mewakili kluster yang mungkin. Setiap node kluster berisi aturan yang menjelaskan karakteristik yang dibagikan oleh item dalam kluster. Sebaliknya, algoritma Microsoft Linear Regression tidak berisi simpul anak; sebagai gantinya, simpul induk untuk model berisi persamaan yang menjelaskan hubungan linier yang ditemukan oleh analisis.

Tabel berikut ini menyediakan tautan ke topik untuk setiap jenis algoritma.

  • Topik konten model: Jelaskan arti setiap jenis node untuk setiap jenis algoritma, dan berikan panduan tentang node mana yang paling diminati dalam jenis model tertentu.

  • Mengkueri topik: Berikan contoh kueri terhadap jenis model tertentu dan panduan tentang cara menginterpretasikan hasilnya.

Algoritma atau Jenis Model Konten Model Mengkueri Model Penambangan
Model aturan asosiasi Konten Model Penambangan untuk Model Asosiasi (Analysis Services - Penambangan Data) Contoh Kueri Model Asosiasi
Model pengklusteran Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Data Mining) Contoh Query Model Pengklasteran
Model pohon keputusan Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Data Mining) Contoh Kueri Model Pohon Keputusan
Model regresi linier Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data) Contoh Kueri Model Regresi Linier
Model regresi logistik Menambang Konten Model untuk Model Regresi Logistik (Analysis Services - Penggalian Data) Contoh Kueri Model Regresi Linier
Model Naïve Bayes Menambang Konten Model untuk Naive Bayes Models (Analysis Services - Data Mining) Model Naive Bayes: Contoh Kueri
Model jaringan neural Menambang Konten Model untuk Model Jaringan Neural (Analysis Services - Penggalian Data) Contoh Kueri Model Jaringan Syaraf
Pengklusteran urutan Menambang Konten Model untuk Model Pengklusteran Urutan (Analysis Services - Penggalian Data) Contoh Kueri Model Pengklusteran Urutan
Model rangkaian waktu Konten Model Penambangan untuk Model Runtun Waktu (Analysis Services - Penggalian Data) Contoh Kueri Model Deret Waktu

Alat untuk Menampilkan Konten Model Penambangan

Saat menelusuri atau menjelajahi model di SQL Server Data Tools, Anda dapat melihat informasi di Microsoft Generic Content Tree Viewer, yang tersedia di SQL Server Data Tools dan SQL Server Management Studio.

Penampil Konten Generik Microsoft menampilkan kolom, aturan, properti, atribut, simpul, dan konten lainnya dari model dengan menggunakan informasi yang sama yang tersedia dalam kumpulan baris skema konten model penambangan. Kumpulan baris skema konten adalah kerangka kerja umum untuk menyajikan informasi terperinci tentang konten model penambangan data. Anda dapat melihat konten model di klien mana pun yang mendukung set baris hierarkis. Penampil di SQL Server Data Tools menyajikan informasi ini dalam penampil tabel HTML yang mewakili semua model dalam format yang konsisten, sehingga lebih mudah untuk memahami struktur model yang Anda buat. Untuk informasi selengkapnya, lihat Menelusuri Model Menggunakan Penampil Pohon Konten Generik Microsoft.

Alat untuk Mengkueri Konten Model Penambangan

Untuk mengambil konten model penambangan, Anda harus membuat kueri terhadap model penambangan data.

Cara termampu untuk membuat kueri konten adalah dengan menjalankan pernyataan DMX berikut di SQL Server Management Studio:

SELECT * FROM [<mining model name>].CONTENT  

Untuk informasi selengkapnya, lihat Kueri Penggalian Data.

Anda juga dapat mengkueri konten model penambangan dengan menggunakan himpunan baris skema penggalian data. Kumpulan baris skema adalah struktur standar yang digunakan klien untuk menemukan, menelusuri, dan mengkueri informasi tentang struktur dan model penambangan. Anda dapat mengkueri kumpulan baris skema dengan menggunakan pernyataan XMLA, Transact-SQL, atau DMX.

Di SQL Server 2017, Anda juga dapat mengakses informasi dalam kumpulan baris skema penambangan data dengan membuka koneksi ke instans SQL Server Analysis Services dan mengkueri tabel sistem. Untuk informasi selengkapnya, lihat Himpunan Baris Skema Penggalian Data (SSA).

Lihat Juga

Penampil Pohon Konten Generik Microsoft (Penggalian Data)
Algoritma Penambangan Data (Analysis Services - Penambangan Data)