Bagikan melalui


ClusterDistance (DMX)

Berlaku untuk: SQL Server Analysis Services

Fungsi ClusterDistance mengembalikan jarak kasus input dari kluster yang ditentukan, atau jika tidak ada kluster yang ditentukan, jarak kasus input dari kluster yang paling mungkin.

Sintaks

  
ClusterDistance([<ClusterID expression>])  

Berlaku Untuk

Fungsi ini hanya dapat digunakan jika model penambangan data yang mendasar mendukung pengklusteran. Fungsi ini dapat digunakan dengan segala jenis model pengklusteran (EM, K-Means, dll.), tetapi hasilnya berbeda tergantung pada algoritma.

Jenis Hasil

Nilai skalar.

Keterangan

Fungsi ClusterDistance mengembalikan jarak antara kasus input dan kluster yang memiliki probabilitas tertinggi untuk kasus input tersebut.

Dalam kasus pengklusteran K-Means, karena setiap kasus hanya dapat termasuk dalam satu kluster, dengan berat keanggotaan 1,0, jarak kluster selalu 0. Namun, di K-Means, setiap kluster diasumsikan memiliki sentroid. Anda bisa mendapatkan nilai sentroid dengan mengkueri atau menelusuri tabel NODE_DISTRIBUTION berlapis dalam konten model penambangan. Untuk informasi selengkapnya, lihat Menambang Konten Model untuk Pengklusteran Model (Analysis Services - Data Mining).

Dalam kasus metode pengklusteran EM default, semua titik di dalam kluster dianggap sama kemungkinannya; oleh karena itu, secara desain tidak ada sentroid untuk kluster. Nilai ClusterDistance antara kasus tertentu dan kluster tertentu N dihitung sebagai berikut:

ClusterDistance(N) =1-(membershipWeight(N))

Atau:

ClusterDistance(N) =1-ClusterProbability (N))

Analysis Services menyediakan fungsi tambahan berikut untuk mengkueri model pengklusteran:

Contoh1: Mendapatkan Jarak Kluster ke Kluster yang Paling Mungkin

Contoh berikut mengembalikan jarak dari kasus yang ditentukan ke kluster yang kemungkinan besar dimiliki oleh kasus tersebut.

SELECT  
    ClusterDistance()  
FROM  
    [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Contoh hasil:

Ekspresi
0.0477390930705145

Untuk mengetahui kluster mana ini, Anda dapat menggantikan Cluster ClusterDistance dalam sampel sebelumnya.

Contoh hasil:

$CLUSTER
Kluster 6

Contoh2: Mendapatkan Jarak ke Kluster Tertentu

Sintaks berikut menggunakan set baris skema konten model penambangan untuk mengembalikan daftar ID node dan keterangan simpul untuk kluster dalam model penambangan. Anda kemudian dapat menggunakan keterangan simpul sebagai argumen pengidentifikasi kluster dalam fungsi ClusterDistance .

SELECT NODE_UNIQUE_NAME, NODE_CAPTION   
FROM <model>.CONTENT   
WHERE NODE_TYPE = 5  

Contoh hasil:

NODE_UNIQUE_NAME NODE_CAPTION
001 Kluster 1
002 Kluster 2

Contoh sintaks berikut mengembalikan jarak kasus yang ditentukan dari kluster berlabel Kluster 2.

SELECT  
    ClusterDistance('Cluster 2')  
AS [Cluster 2 Distance]  
FROM [TM Clustering]  
NATURAL PREDICTION JOIN  
(SELECT 28 AS [Age],  
    '2-5 Miles' AS [Commute Distance],  
    'Graduate Degree' AS [Education],  
    0 AS [Number Cars Owned],  
    0 AS [Number Children At Home]) AS t  

Contoh hasil:

Jarak Kluster 2
0.97008209236394

Lihat Juga

Kluster (DMX)
Referensi Fungsi Ekstensi Penggalian Data (DMX)
Functions (DMX)
Menambang Konten Model untuk Model Pengklusteran (Analysis Services - Data Mining)