Bagikan melalui


Konten Model Penambangan untuk Model Pengklusteran (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Topik ini menjelaskan konten model penambangan yang khusus untuk model yang menggunakan algoritma Pengklusteran Microsoft. Untuk penjelasan umum tentang konten model penambangan untuk semua jenis model, lihat Menambang Konten Model (Analysis Services - Data Mining).

Memahami Struktur Model Pengklusteran

Model pengklusteran memiliki struktur yang sederhana. Setiap model memiliki simpul induk tunggal yang mewakili model dan metadatanya, dan setiap simpul induk memiliki daftar kluster datar (NODE_TYPE = 5). Organisasi ini diperlihatkan dalam gambar berikut.

struktur konten model untuk

Setiap simpul anak mewakili satu kluster dan berisi statistik terperinci tentang atribut kasus dalam kluster tersebut. Ini termasuk hitungan jumlah kasus dalam kluster, dan distribusi nilai yang membedakan kluster dari kluster lain.

Catatan

Anda tidak perlu melakukan iterasi melalui simpul untuk mendapatkan hitungan atau deskripsi kluster; simpul induk model juga menghitung dan mencantumkan kluster.

Simpul induk berisi statistik berguna yang menjelaskan distribusi aktual dari semua kasus pelatihan. Statistik ini ditemukan di kolom tabel berlapis, NODE_DISTRIBUTION. Misalnya, tabel berikut menunjukkan beberapa baris dari tabel NODE_DISTRIBUTION yang menjelaskan distribusi demografi pelanggan untuk model pengklusteran, TM_Clustering, yang Anda buat di Tutorial Penggalian Data Dasar:

ATTRIBUTE_NAME ATTRIBUTE_VALUE DUKUNGAN PROBABILITAS VARIANS VALUE_TYPE
Usia Tidak ada 0 0 0 1 (Hilang)
Usia 44.9016152716593 12939 1 125.663453102554 3 (Berkelanjutan)
Jenis kelamin Tidak ada 0 0 0 1 (Hilang)
Jenis kelamin F 6350 0.490764355823479 0 4 (Diskrit)
Jenis kelamin M 6589 0.509235644176521 0 4 (Diskrit)

Dari hasil ini, Anda dapat melihat bahwa ada 12939 kasus yang digunakan untuk membangun model, bahwa rasio laki-laki terhadap wanita adalah sekitar 50-50, dan bahwa usia rata-rata adalah 44. Statistik deskriptif bervariasi tergantung pada apakah atribut yang dilaporkan adalah jenis data numerik berkelanjutan, seperti usia, atau jenis nilai diskrit, seperti jenis jenis kelamin. Rata-rata dan varians ukuran statistik dihitung untuk jenis data berkelanjutan, sedangkan probabilitas dan dukungan dihitung untuk jenis data diskrit.

Catatan

Varians mewakili varians total untuk kluster. Ketika nilai untuk varians kecil, itu menunjukkan bahwa sebagian besar nilai dalam kolom cukup dekat dengan rata-rata. Untuk mendapatkan simpangihan standar, hitung akar kuadrat dari varians.

Perhatikan bahwa untuk setiap atribut ada jenis nilai Hilang yang memberi tahu Anda berapa banyak kasus yang tidak memiliki data untuk atribut tersebut. Data yang hilang bisa signifikan dan memengaruhi perhitungan dengan cara yang berbeda, tergantung pada jenis data. Untuk informasi selengkapnya, lihat Nilai yang Hilang (Analysis Services - Penggalian Data).

Konten Model untuk Model Pengklusteran

Bagian ini menyediakan detail dan contoh hanya untuk kolom tersebut dalam konten model penambangan yang relevan untuk model pengklusteran.

Untuk informasi tentang kolom tujuan umum dalam kumpulan baris skema, seperti MODEL_CATALOG dan MODEL_NAME, lihat Konten Model Penambangan (Analysis Services - Penggalian Data).

MODEL_CATALOG
Nama database tempat model disimpan.

MODEL_NAME
Nama model.

ATTRIBUTE_NAME
Selalu kosong dalam model pengklusteran karena tidak ada atribut yang dapat diprediksi dalam mode .

NODE_NAME
Selalu sama seperti NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Pengidentifikasi unik untuk simpul dalam model. Nilai ini tidak boleh diubah.

NODE_TYPE
Model pengklusteran menghasilkan jenis node berikut:

ID dan Nama Simpul Deskripsi
1 (Model) Simpul akar untuk model.
5 (Kluster) Berisi hitungan kasus dalam kluster, karakteristik kasus dalam kluster, dan statistik yang menjelaskan nilai dalam kluster.

NODE_CAPTION
Nama yang mudah diingat untuk tujuan tampilan. Saat Anda membuat model, nilai NODE_UNIQUE_NAME secara otomatis digunakan sebagai caption. Namun, Anda dapat mengubah nilai untuk NODE_CAPTION memperbarui nama tampilan untuk kluster, baik secara terprogram atau dengan menggunakan penampil.

Catatan

Saat Anda memproses ulang model, semua perubahan nama akan ditimpa oleh nilai baru. Anda tidak dapat mempertahankan nama dalam model, atau melacak perubahan dalam keanggotaan kluster antara versi model yang berbeda.

CHILDREN_CARDINALITY
Perkiraan jumlah anak yang dimiliki simpul.

Simpul induk Menunjukkan jumlah kluster dalam model.

Node kluster Selalu 0.

PARENT_UNIQUE_NAME
Nama unik induk simpul.

Simpul induk Selalu NULL

Node kluster Biasanya 000.

NODE_DESCRIPTION
Deskripsi node.

Simpul induk Selalu (Semua).

Node kluster Daftar atribut utama yang dipisahkan koma yang membedakan kluster dari kluster lain.

NODE_RULE
Tidak digunakan untuk model pengklusteran.

MARGINAL_RULE
Tidak digunakan untuk model pengklusteran.

NODE_PROBABILITY
Probabilitas yang terkait dengan simpul ini. Simpul induk Selalu 1.

Node kluster Probabilitas mewakili probabilitas campuran atribut, dengan beberapa penyesuaian tergantung pada algoritma yang digunakan untuk membuat model pengklusteran.

MARGINAL_PROBABILITY
Probabilitas mencapai simpul dari simpul induk. Dalam model pengklusteran, probabilitas marginal selalu sama dengan probabilitas simpul.

NODE_DISTRIBUTION
Tabel yang berisi histogram probabilitas simpul.

Simpul induk Lihat Pengantar topik ini.

Node kluster Mewakili distribusi atribut dan nilai untuk kasus yang disertakan dalam kluster ini.

NODE_SUPPORT
Jumlah kasus yang mendukung simpul ini. Simpul induk Menunjukkan jumlah kasus pelatihan untuk seluruh model.

Node kluster Menunjukkan ukuran kluster sebagai sejumlah kasus.

Catatan Jika model menggunakan pengklusteran K-Means, setiap kasus hanya dapat dimiliki oleh satu kluster. Namun, jika model menggunakan pengklusteran EM, setiap kasus dapat termasuk dalam kluster yang berbeda, dan kasus diberi jarak tertimbang untuk setiap kluster tempatnya berada. Oleh karena itu, untuk model EM, jumlah dukungan untuk kluster individu lebih besar dari dukungan untuk model keseluruhan.

MSOLAP_MODEL_COLUMN
Tidak digunakan untuk model pengklusteran.

MSOLAP_NODE_SCORE
Menampilkan skor yang terkait dengan simpul.

Simpul induk Skor Bayesian Information Criterion (BIC) untuk model pengklusteran.

Node kluster Selalu 0.

MSOLAP_NODE_SHORT_CAPTION
Label yang digunakan untuk tujuan tampilan. Anda tidak dapat mengubah caption ini.

Simpul induk Jenis model: Model kluster

Node kluster Nama kluster. Contoh: Kluster 1.

Keterangan

SQL Server Analysis Services menyediakan beberapa metode untuk membuat model pengklusteran. Jika Anda tidak tahu metode mana yang digunakan untuk membuat model yang sedang Anda kerjakan, Anda dapat mengambil metadata model secara terprogram, dengan menggunakan klien ADOMD atau AMO, atau dengan mengkueri kumpulan baris skema penambangan data. Untuk informasi selengkapnya, lihat Mengkueri Parameter yang Digunakan untuk Membuat Model Penambangan.

Catatan

Struktur dan konten model tetap sama, terlepas dari metode atau parameter pengklusteran mana yang Anda gunakan.

Lihat juga

Konten Model Penambangan (Analysis Services - Penggalian Data)
Penampil Model Penggalian Data
Algoritma Pengklusteran Microsoft
Kueri Penggalian Data