Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Berlaku untuk:
SQL Server 2019 dan versi Analysis Services sebelumnya
Azure Analysis Services
Fabric/Power BI Premium
Penting
Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.
Topik ini menjelaskan konten model penambangan yang khusus untuk model yang menggunakan algoritma Pengklusteran Microsoft. Untuk penjelasan umum tentang konten model penambangan untuk semua jenis model, lihat Konten Model Penambangan (Analysis Services - Data Mining).
Memahami Struktur Model Pengklusteran
Model pengklusteran memiliki struktur sederhana. Setiap model memiliki node induk tunggal yang mewakili model dan metadatanya, dan setiap simpul induk memiliki daftar kluster datar (NODE_TYPE = 5). Organisasi ini ditampilkan dalam gambar berikut.
Setiap simpul anak mewakili satu kluster dan berisi statistik terperinci tentang atribut kasus dalam kluster tersebut. Ini termasuk hitungan jumlah kasus dalam kluster, dan distribusi nilai yang membedakan kluster dari kluster lain.
Nota
Anda tidak perlu melakukan iterasi melalui simpul untuk mendapatkan hitungan atau deskripsi kluster; node induk model juga menghitung dan mencantumkan kluster.
Node induk berisi statistik berguna yang menjelaskan distribusi aktual dari semua kasus pelatihan. Statistik ini ditemukan di kolom tabel berlapis, NODE_DISTRIBUTION. Misalnya, tabel berikut menunjukkan beberapa baris dari tabel NODE_DISTRIBUTION yang menjelaskan distribusi demografi pelanggan untuk model pengklusteran, TM_Clustering, yang Anda buat di Tutorial Penggalian Data Dasar:
| ATTRIBUTE_NAME | NILAI_ATRIBUT | DUKUNGAN | PROBABILITAS | VARIANSI | VALUE_TYPE |
|---|---|---|---|---|---|
| Usia | Hilang | 0 | 0 | 0 | 1 (Hilang) |
| Usia | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (Berkelanjutan) |
| Jenis kelamin | Hilang | 0 | 0 | 0 | 1 (Hilang) |
| Jenis kelamin | F | 6350 | 0.490764355823479 | 0 | 4 (Diskrit) |
| Jenis kelamin | M | 6589 | 0.509235644176521 | 0 | 4 (Diskrit) |
Dari hasil ini, Anda dapat melihat bahwa ada 12939 kasus yang digunakan untuk membangun model, bahwa rasio laki-laki terhadap wanita adalah sekitar 50-50, dan bahwa usia rata-rata adalah 44. Statistik deskriptif bervariasi tergantung pada apakah atribut yang dilaporkan adalah jenis data numerik berkelanjutan, seperti usia, atau jenis nilai diskrit, seperti jenis jenis kelamin. Rata-rata dan variansi ukuran statistik dihitung untuk jenis data berkelanjutan, sedangkan probabilitas dan dukungan dihitung untuk jenis data diskrit.
Nota
Varians memperlihatkan varians total dari kluster. Ketika nilai untuk varians kecil, itu menunjukkan bahwa sebagian besar nilai dalam kolom cukup dekat dengan rata-rata. Untuk mendapatkan simpangan baku, hitung akar kuadrat dari varians.
Perhatikan bahwa untuk setiap atribut ada jenis nilai Hilang yang memberi tahu Anda berapa banyak kasus yang tidak memiliki data untuk atribut tersebut. Data yang hilang dapat signifikan dan memengaruhi perhitungan dengan cara yang berbeda, tergantung pada jenis data. Untuk informasi selengkapnya, lihat Nilai yang Hilang (Analysis Services - Data Mining).
Konten Model untuk Model Pengklusteran
Bagian ini menyediakan detail dan contoh hanya untuk kolom tersebut dalam konten model penambangan yang relevan untuk model pengklusteran.
Untuk informasi tentang kolom tujuan umum dalam kumpulan baris skema, seperti MODEL_CATALOG dan MODEL_NAME, lihat Konten Model Penambangan (Analysis Services - Data Mining).
MODEL_KATALOG
Nama database tempat model disimpan.
MODEL_NAME
Nama model.
ATTRIBUTE_NAME
Selalu kosong dalam model pengklusteran karena tidak ada atribut yang dapat diprediksi dalam mode.
NODE_NAME
Selalu sama seperti NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Pengidentifikasi unik untuk sebuah simpul dalam model. Nilai ini tidak boleh diubah.
NODE_TYPE
Model pengklusteran menghasilkan jenis node berikut:
| ID node dan Nama | Description |
|---|---|
| 1 (Model) | Simpul akar untuk model. |
| 5 (Kluster) | Berisi hitungan kasus dalam kluster, karakteristik kasus dalam kluster, dan statistik yang menjelaskan nilai dalam kluster. |
NODE_CAPTION
Nama yang mudah diingat untuk tujuan tampilan. Saat Anda membuat model, nilai NODE_UNIQUE_NAME secara otomatis digunakan sebagai keterangan. Namun, Anda dapat mengubah nilai untuk NODE_CAPTION memperbarui nama tampilan untuk kluster, baik secara terprogram atau dengan menggunakan penampil.
Nota
Saat Anda memproses ulang model, semua perubahan nama akan ditimpa oleh nilai baru. Anda tidak dapat mempertahankan nama dalam model, atau melacak perubahan dalam keanggotaan kluster antara versi model yang berbeda.
- In this case, leaving the term untranslated may be appropriate if it is a commonly understood technical term. However, if there's an equivalent term in the local context, consider using it alongside the English term for better understanding.
Perkiraan jumlah anak yang dimiliki simpul.
Node induk Menunjukkan jumlah kluster dalam model.
Node kluster Selalu 0.
PARENT_UNIQUE_NAME
Nama unik dari induk simpul.
Node induk Selalu NULL
Node kluster Biasanya 000.
NODE_DESCRIPTION
Deskripsi dari simpul.
Node induk Selalu (Semua).
Node kluster Daftar atribut utama yang dipisahkan koma yang membedakan kluster dari kluster lain.
NODE_RULE
Tidak digunakan untuk model pengklusteran.
MARGINAL_RULE
Tidak digunakan untuk model pengklusteran.
NODE_PROBABILITY
Probabilitas yang terkait dengan simpul ini.
Node induk Selalu 1.
Node kluster Probabilitas mewakili probabilitas gabungan atribut, dengan beberapa penyesuaian tergantung pada algoritma yang digunakan untuk membuat model pengklusteran.
Probabilitas Marginal
Probabilitas mencapai simpul dari simpul induk. Dalam model pengklusteran, probabilitas marginal selalu sama dengan probabilitas simpul.
NODE_DISTRIBUTION
Tabel yang berisi histogram probabilitas simpul.
Node induk Lihat Pengantar topik ini.
Node kluster Mewakili distribusi atribut dan nilai untuk kasus yang disertakan dalam kluster ini.
NODE_SUPPORT
Jumlah kasus yang mendukung simpul ini.
Node induk Menunjukkan jumlah kasus pelatihan untuk seluruh model.
Node kluster Menunjukkan ukuran kluster sebagai sejumlah kasus.
Catatan Jika model menggunakan pengklusteran K-Means, setiap kasus hanya dapat termasuk dalam satu kluster. Namun, jika model menggunakan pengklusteran EM, setiap kasus dapat termasuk dalam kluster yang berbeda, dan kasus diberi jarak tertimbang untuk setiap kluster tempatnya berada. Oleh karena itu, untuk model EM, jumlah dukungan untuk kluster individual lebih besar dari dukungan untuk model keseluruhan.
MSOLAP_MODEL_COLUMN
Tidak digunakan untuk model pengklusteran.
MSOLAP_NODE_SCORE
Menampilkan skor yang terkait dengan simpul.
Node induk Skor Bayesian Information Criterion (BIC) untuk model pengklusteran.
Node kluster Selalu 0.
MSOLAP_NODE_SHORT_CAPTION (keterangan pendek node MSOLAP)
Label yang digunakan untuk tujuan tampilan. Anda tidak dapat mengubah keterangan ini.
Node induk Jenis model: Model kluster
Node kluster Nama kluster. Contoh: Kluster 1.
Komentar
SQL Server Analysis Services menyediakan beberapa metode untuk membuat model pengklusteran. Jika Anda tidak tahu metode mana yang digunakan untuk membuat model yang sedang Anda kerjakan, Anda dapat mengambil metadata model secara terprogram, dengan menggunakan klien ADOMD atau AMO, atau dengan mengkueri himpunan baris skema penggalian data. Untuk informasi selengkapnya, lihat Mengkueri Parameter yang Digunakan untuk Membuat Model Penambangan.
Nota
Struktur dan konten model tetap sama, terlepas dari metode pengklusteran atau parameter mana yang Anda gunakan.
Lihat Juga
Konten Model Penambangan (Analysis Services - Penggalian Data)
Penampil Model Penggalian Data
Algoritma Pengklusteran Microsoft
Kueri Penggalian Data