Bagikan melalui


Konten Model Penambangan untuk Model Naive Bayes (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Topik ini menjelaskan konten model penambangan yang khusus untuk model yang menggunakan algoritma Microsoft Naive Bayes. Untuk penjelasan tentang cara menginterpretasikan statistik dan struktur yang dibagikan oleh semua jenis model, dan definisi umum istilah yang terkait dengan konten model penambangan, lihat Menambang Konten Model (Analysis Services - Data Mining).

Memahami Struktur Model Naive Bayes

Model Naive Bayes memiliki node induk tunggal yang mewakili model dan metadatanya, dan di bawah simpul induk tersebut, sejumlah pohon independen yang mewakili atribut yang dapat diprediksi yang Anda pilih. Selain pohon untuk atribut, setiap model berisi satu simpul statistik marginal (NODE_TYPE = 26) yang menyediakan statistik deskriptif tentang serangkaian kasus pelatihan. Untuk informasi selengkapnya, lihat Informasi di Simpul Statistik Marginal.

Untuk setiap atribut dan nilai yang dapat diprediksi, model menghasilkan pohon yang berisi informasi yang menjelaskan bagaimana berbagai kolom input memengaruhi hasil yang dapat diprediksi tertentu. Setiap pohon berisi atribut yang dapat diprediksi dan nilainya (NODE_TYPE = 9), lalu serangkaian simpul yang mewakili atribut input (NODE_TYPE = 10). Karena atribut input biasanya memiliki beberapa nilai, setiap atribut input (NODE_TYPE = 10) mungkin memiliki beberapa simpul anak (NODE_TYPE = 11), masing-masing untuk status atribut tertentu.

Catatan

Karena model Naive Bayes tidak mengizinkan jenis data berkelanjutan, semua nilai kolom input diperlakukan sebagai diskrit atau diskret. Anda dapat menentukan bagaimana nilai didiskretisasi. Untuk informasi selengkapnya, Ubah Diskretisasi Kolom dalam Model Penambangan.

struktur konten model untuk struktur naïve bayes

Konten Model untuk Model Naive Bayes

Bagian ini menyediakan detail dan contoh hanya untuk kolom tersebut dalam konten model penambangan yang memiliki relevansi khusus untuk model Naive Bayes.

Untuk informasi tentang kolom tujuan umum dalam kumpulan baris skema, seperti MODEL_CATALOG dan MODEL_NAME, yang tidak dijelaskan di sini, atau untuk penjelasan tentang terminologi model penambangan, lihat Menambang Konten Model (Analysis Services - Data Mining).

MODEL_CATALOG
Nama database tempat model disimpan.

MODEL_NAME
Nama model.

ATTRIBUTE_NAME
Nama atribut yang sesuai dengan simpul ini.

Akar model Nama atribut yang dapat diprediksi.

Statistik marginal Tidak berlaku

Atribut yang dapat diprediksi Nama atribut yang dapat diprediksi.

Atribut input Nama atribut input.

Status atribut input Nama atribut input saja. Untuk mendapatkan status, gunakan MSOLAP_NODE_SHORT_CAPTION.

NODE_NAME
Nama node.

Kolom ini berisi nilai yang sama dengan NODE_UNIQUE_NAME.

Untuk informasi selengkapnya tentang konvensi penamaan simpul, lihat Menggunakan Nama Node dan ID.

NODE_UNIQUE_NAME
Nama unik simpul. Nama unik ditetapkan sesuai dengan konvensi yang menyediakan informasi tentang hubungan di antara simpul. Untuk informasi selengkapnya tentang konvensi penamaan simpul, lihat Menggunakan Nama Node dan ID.

NODE_TYPE
Model Naive Bayes menghasilkan jenis node berikut:

ID Jenis Simpul Deskripsi
26 (NaiveBayesMarginalStatNode) Berisi statistik yang menjelaskan seluruh rangkaian kasus pelatihan untuk model.
9 (Atribut yang dapat diprediksi) Berisi nama atribut yang dapat diprediksi.
10 (Atribut input) Berisi nama kolom atribut input, dan simpul anak yang berisi nilai untuk atribut .
11 (Status atribut input) Berisi nilai atau nilai diskret dari semua atribut input yang dipasangkan dengan atribut output tertentu.

NODE_CAPTION
Label atau caption yang terkait dengan simpul. Properti ini terutama untuk tujuan tampilan.

Akar model kosong

Statistik marginal kosong

Atribut yang dapat diprediksi Nama atribut yang dapat diprediksi.

Atribut input Nama atribut yang dapat diprediksi dan atribut input saat ini. Misalnya:

Pembeli Sepeda -> Usia

Status atribut input Nama atribut yang dapat diprediksi dan atribut input saat ini, ditambah nilai input. Misalnya:

Pembeli Sepeda -> Usia = Hilang

CHILDREN_CARDINALITY
Jumlah anak yang dimiliki simpul.

Akar model Jumlah atribut yang dapat diprediksi dalam model ditambah 1 untuk simpul statistik marginal.

Statistik marginal Menurut definisi tidak memiliki anak.

Atribut yang dapat diprediksi Jumlah atribut input yang terkait dengan atribut yang dapat diprediksi saat ini.

Atribut input Jumlah nilai diskret atau diskret untuk atribut input saat ini.

Status atribut input Selalu 0.

PARENT_UNIQUE_NAME
Nama unik simpul induk. Untuk informasi selengkapnya tentang berkaitan dengan simpul induk dan anak, lihat Menggunakan Nama Node dan ID.

NODE_DESCRIPTION
Sama seperti simpul caption.

NODE_RULE
Representasi XML dari caption simpul.

MARGINAL_RULE
Sama seperti aturan simpul.

NODE_PROBABILITY
Probabilitas yang terkait dengan simpul ini.

Akar model Selalu 0.

Statistik marginal Selalu 0.

Atribut yang dapat diprediksi Selalu 1.

Atribut input Selalu 1.

Status atribut input Angka desimal yang menunjukkan probabilitas nilai saat ini. Nilai untuk semua status atribut input di bawah jumlah simpul atribut input induk menjadi 1.

MARGINAL_PROBABILITY
Sama seperti probabilitas simpul.

NODE_DISTRIBUTION
Tabel yang berisi histogram probabilitas untuk simpul. Untuk informasi selengkapnya, lihat tabel NODE_DISTRIBUTION.

NODE_SUPPORT
Jumlah kasus yang mendukung simpul ini.

Akar model Jumlah semua kasus dalam data pelatihan.

Statistik marginal Selalu 0.

Atribut yang dapat diprediksi Jumlah semua kasus dalam data pelatihan.

Atribut input Jumlah semua kasus dalam data pelatihan.

Status atribut input Jumlah kasus dalam data pelatihan yang hanya berisi nilai khusus ini.

MSOLAP_MODEL_COLUMN
Label yang digunakan untuk tujuan tampilan. Biasanya sama dengan ATTRIBUTE_NAME.

MSOLAP_NODE_SCORE
Mewakili pentingnya atribut atau nilai dalam model.

Akar model Selalu 0.

Statistik marginal Selalu 0.

Atribut yang dapat diprediksi Selalu 0.

Atribut input Skor kearifan untuk atribut input saat ini sehubungan dengan atribut yang dapat diprediksi saat ini.

Status atribut input Selalu 0.

MSOLAP_NODE_SHORT_CAPTION
String teks yang mewakili nama atau nilai kolom.

Akar model Kosong

Statistik marginal Kosong

Atribut yang dapat diprediksi Nama atribut yang dapat diprediksi.

Atribut input Nama atribut input.

Status atribut input Nilai atau nilai yang didisretisasi dari atribut input.

Menggunakan Nama Node dan ID

Penamaan node dalam model Naive Bayes memberikan informasi tambahan tentang jenis node, untuk mempermudah pemahaman hubungan di antara informasi dalam model. Tabel berikut ini memperlihatkan konvensi untuk ID yang ditetapkan ke jenis node yang berbeda.

Jenis Node Konvensi untuk ID simpul
Akar model (1) Selalu 0.
Simpul statistik marginal (26) Nilai ID arbitrer.
Atribut yang dapat diprediksi (9) Angka heksadesimal dimulai dengan 10000000

Contoh: 100000001, 10000000b
Atribut input (10) Angka heksadesimal dua bagian di mana bagian pertama selalu 20000000, dan bagian kedua dimulai dengan pengidentifikasi heksadesimal dari atribut yang dapat diprediksi terkait.

Contoh: 20000000b00000000

Dalam hal ini, atribut terkait yang dapat diprediksi adalah 10000000b.
Status atribut input (11) Angka heksadesimal tiga bagian di mana bagian pertama selalu 30000000, bagian kedua dimulai dengan pengidentifikasi heksadesimal dari atribut yang dapat diprediksi terkait, dan bagian ketiga mewakili pengidentifikasi nilai.

Contoh: 30000000b00000000200000000

Dalam hal ini, atribut terkait yang dapat diprediksi adalah 10000000b.

Anda dapat menggunakan ID untuk menghubungkan atribut input dan status ke atribut yang dapat diprediksi. Misalnya, kueri berikut mengembalikan nama dan keterangan untuk simpul yang mewakili kemungkinan kombinasi atribut input dan yang dapat diprediksi untuk model, TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION  
FROM TM_NaiveBayes.CONTENT  
WHERE NODE_TYPE = 10  

Hasil yang diharapkan:

NODE_NAME NODE_CAPTION
20000000000000001 Pembeli Sepeda -> Jarak Perjalanan
20000000000000002 Pembeli Sepeda -> Pendidikan Bahasa Inggris
20000000000000003 Pembeli Sepeda -> Pekerjaan Bahasa Inggris
20000000000000009 Pembeli Sepeda -> Status Perkawinan
2000000000000000a Pembeli Sepeda -> Jumlah Anak Di Rumah
2000000000000000b Pembeli Sepeda -> Wilayah
2000000000000000c Pembeli Sepeda -> Total Anak

Anda kemudian dapat menggunakan ID simpul induk untuk mengambil simpul anak. Kueri berikut mengambil simpul yang berisi nilai untuk Marital Status atribut , bersama dengan probabilitas setiap simpul.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY  
FROM TM_NaiveBayes.CONTENT  
WHERE NODE_TYPE = 11  
AND [PARENT_UNIQUE_NAME] = '20000000000000009'  

Catatan

Nama kolom, PARENT_UNIQUE_NAME, harus diapit dalam tanda kurung siku untuk membedakannya dari kata kunci yang dicadangkan dengan nama yang sama.

Hasil yang diharapkan:

NODE_NAME NODE_CAPTION NODE_PROBABILITY
3000000000000000900000000 Pembeli Sepeda -> Status Perkawinan = Hilang 0
3000000000000000900000001 Pembeli Sepeda -> Status Perkawinan = S 0.457504004
3000000000000000900000002 Pembeli Sepeda -> Status Perkawinan = M 0.542495996

Tabel NODE_DISTRIBUTION

Kolom tabel berlapis, NODE_DISTRIBUTION, biasanya berisi statistik tentang distribusi nilai dalam simpul. Dalam model Naive Bayes, tabel ini hanya diisi untuk simpul berikut:

Jenis Node Konten tabel berlapis
Akar model (1) Kosong.
Simpul statistik marginal (24) Berisi informasi ringkasan untuk semua atribut dan atribut input yang dapat diprediksi, untuk seluruh kumpulan data pelatihan.
Atribut yang dapat diprediksi (9) Kosong.
Atribut input (10) Kosong.
Status atribut input (11) Berisi statistik yang menjelaskan distribusi nilai dalam data pelatihan untuk kombinasi khusus nilai dan nilai atribut input yang dapat diprediksi ini.

Anda dapat menggunakan ID simpul atau keterangan simpul untuk mengambil tingkat detail yang meningkat. Misalnya, kueri berikut mengambil kolom tertentu dari tabel NODE_DISTRIBUTION hanya untuk simpul atribut input yang terkait dengan nilai , 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,  
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE  
FROM NODE_DISTRIBUTION) as t  
FROM TM_NaiveBayes.content  
WHERE NODE_TYPE = 11  
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'  

Hasil yang diharapkan:

NODE_CAPTION t.ATTRIBUTE_NAME t.ATTRIBUTE_VALUE t.SUPPORT t.PROBABILITAS t.VALUETYPE
Pembeli Sepeda -> Status Perkawinan = S Pembeli Sepeda Tidak ada 0 0 1
Pembeli Sepeda -> Status Perkawinan = S Pembeli Sepeda 0 3783 0.472934117 4
Pembeli Sepeda -> Status Perkawinan = S Pembeli Sepeda 1 4216 0.527065883 4

Dalam hasil ini, nilai kolom DUKUNGAN memberi tahu Anda jumlah pelanggan dengan status perkawinan yang ditentukan yang membeli sepeda. Kolom PROBABILITAS berisi probabilitas setiap nilai atribut, seperti yang dihitung hanya untuk simpul ini. Untuk definisi umum istilah yang digunakan dalam tabel NODE_DISTRIBUTION, lihat Menambang Konten Model (Analysis Services - Data Mining).

Informasi dalam Simpul Statistik Marginal

Dalam model Naive Bayes, tabel berlapis untuk simpul statistik marginal berisi distribusi nilai untuk seluruh kumpulan data pelatihan. Misalnya, tabel berikut berisi daftar sebagian statistik dalam tabel NODE_DISTRIBUTION berlapis untuk model, TM_NaiveBayes:

ATTRIBUTE_NAME ATTRIBUTE_VALUE DUKUNGAN PROBABILITAS VARIANS VALUETYPE
Pembeli Sepeda Tidak ada 0 0 0 1
Pembeli Sepeda 0 8869 0.507263784 0 4
Pembeli Sepeda 1 8615 0.492736216 0 4
Status Perkawinan Tidak ada 0 0 0 1
Status Perkawinan S 7999 0.457504004 0 4
Status Perkawinan M 9485 0.542495996 0 4
Total Anak Tidak ada 0 0 0 1
Total Anak 0 4865 0.278254404 0 4
Total Anak 3 2093 0.119709449 0 4
Total Anak 1 3406 0.19480668 0 4

Kolom [Pembeli Sepeda] disertakan karena simpul statistik marginal selalu berisi deskripsi atribut yang dapat diprediksi dan nilai yang mungkin. Semua kolom lain yang tercantum mewakili atribut input, bersama dengan nilai yang digunakan dalam model. Nilai hanya dapat hilang, diskret, atau diskret.

Dalam model Naive Bayes, tidak boleh ada atribut berkelanjutan; oleh karena itu, semua data numerik diwakili sebagai diskrit (VALUE_TYPE = 4) atau diskret (VALUE_TYPE = 5).

Nilai yang hilang (VALUE_TYPE = 1) ditambahkan ke setiap atribut input dan output untuk mewakili nilai potensial yang tidak ada dalam data pelatihan. Anda harus berhati-hati untuk membedakan antara "hilang" sebagai string dan nilai default Hilang . Untuk informasi selengkapnya, lihat Nilai yang Hilang (Analysis Services - Penggalian Data).

Lihat juga

Konten Model Penambangan (Analysis Services - Penggalian Data)
Penampil Model Penggalian Data
Kueri Penggalian Data
Algoritma Microsoft Naive Bayes