ClusterDistance (DMX)
Berlaku untuk: SQL Server Analysis Services
Fungsi ClusterDistance mengembalikan jarak kasus input dari kluster yang ditentukan, atau jika tidak ada kluster yang ditentukan, jarak kasus input dari kluster yang paling mungkin.
Sintaks
ClusterDistance([<ClusterID expression>])
Berlaku Untuk
Fungsi ini hanya dapat digunakan jika model penambangan data yang mendasar mendukung pengklusteran. Fungsi ini dapat digunakan dengan segala jenis model pengklusteran (EM, K-Means, dll.), tetapi hasilnya berbeda tergantung pada algoritma.
Jenis Hasil
Nilai skalar.
Keterangan
Fungsi ClusterDistance mengembalikan jarak antara kasus input dan kluster yang memiliki probabilitas tertinggi untuk kasus input tersebut.
Dalam kasus pengklusteran K-Means, karena setiap kasus hanya dapat termasuk dalam satu kluster, dengan berat keanggotaan 1,0, jarak kluster selalu 0. Namun, di K-Means, setiap kluster diasumsikan memiliki sentroid. Anda bisa mendapatkan nilai sentroid dengan mengkueri atau menelusuri tabel NODE_DISTRIBUTION berlapis dalam konten model penambangan. Untuk informasi selengkapnya, lihat Menambang Konten Model untuk Pengklusteran Model (Analysis Services - Data Mining).
Dalam kasus metode pengklusteran EM default, semua titik di dalam kluster dianggap sama kemungkinannya; oleh karena itu, secara desain tidak ada sentroid untuk kluster. Nilai ClusterDistance antara kasus tertentu dan kluster tertentu N dihitung sebagai berikut:
ClusterDistance(N) =1-(membershipWeight(N))
Atau:
ClusterDistance(N) =1-ClusterProbability (N))
Fungsi Prediksi Terkait
Analysis Services menyediakan fungsi tambahan berikut untuk mengkueri model pengklusteran:
Gunakan fungsi Kluster (DMX) untuk mengembalikan kluster yang paling mungkin.
Gunakan fungsi ClusterProbability (DMX) untuk mendapatkan probabilitas bahwa kasus termasuk dalam kluster tertentu. Nilai ini berfungsi sebagai inversi jarak kluster.
Gunakan fungsi PredictHistogram (DMX) untuk mengembalikan histogram kemungkinan kasus input yang ada di setiap kluster model.
Gunakan fungsi PredictCaseLikelihood (DMX) untuk mengembalikan ukuran dari 0 hingga 1 yang menunjukkan seberapa mungkin kasus input ada mengingat model yang dipelajari oleh algoritma.
Contoh1: Mendapatkan Jarak Kluster ke Kluster yang Paling Mungkin
Contoh berikut mengembalikan jarak dari kasus yang ditentukan ke kluster yang kemungkinan besar dimiliki oleh kasus tersebut.
SELECT
ClusterDistance()
FROM
[TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Contoh hasil:
Ekspresi |
---|
0.0477390930705145 |
Untuk mengetahui kluster mana ini, Anda dapat menggantikan Cluster
ClusterDistance
dalam sampel sebelumnya.
Contoh hasil:
$CLUSTER |
---|
Kluster 6 |
Contoh2: Mendapatkan Jarak ke Kluster Tertentu
Sintaks berikut menggunakan set baris skema konten model penambangan untuk mengembalikan daftar ID node dan keterangan simpul untuk kluster dalam model penambangan. Anda kemudian dapat menggunakan keterangan simpul sebagai argumen pengidentifikasi kluster dalam fungsi ClusterDistance .
SELECT NODE_UNIQUE_NAME, NODE_CAPTION
FROM <model>.CONTENT
WHERE NODE_TYPE = 5
Contoh hasil:
NODE_UNIQUE_NAME | NODE_CAPTION |
---|---|
001 | Kluster 1 |
002 | Kluster 2 |
Contoh sintaks berikut mengembalikan jarak kasus yang ditentukan dari kluster berlabel Kluster 2.
SELECT
ClusterDistance('Cluster 2')
AS [Cluster 2 Distance]
FROM [TM Clustering]
NATURAL PREDICTION JOIN
(SELECT 28 AS [Age],
'2-5 Miles' AS [Commute Distance],
'Graduate Degree' AS [Education],
0 AS [Number Cars Owned],
0 AS [Number Children At Home]) AS t
Contoh hasil:
Jarak Kluster 2 |
---|
0.97008209236394 |
Lihat Juga
Kluster (DMX)
Referensi Fungsi Ekstensi Penggalian Data (DMX)
Functions (DMX)
Menambang Konten Model untuk Model Pengklusteran (Analysis Services - Data Mining)