Bagikan melalui


Konten Model Penambangan untuk Model Pengklusteran Urutan

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Topik ini menjelaskan konten model penambangan yang khusus untuk model yang menggunakan algoritma Pengklusteran Urutan Microsoft. Untuk penjelasan tentang terminologi umum dan statistik yang terkait dengan konten model penambangan yang berlaku untuk semua jenis model, lihat Menambang Konten Model (Analysis Services - Penggalian Data).

Memahami Struktur Model Pengklusteran Urutan

Model pengklusteran urutan memiliki simpul induk tunggal (NODE_TYPE = 1) yang mewakili model dan metadatanya. Simpul induk, yang diberi label (Semua), memiliki simpul urutan terkait (NODE_TYPE = 13) yang mencantumkan semua transisi yang terdeteksi dalam data pelatihan.

Struktur model pengklusteran urutan

Algoritma ini juga membuat sejumlah kluster, berdasarkan transisi yang ditemukan dalam data dan atribut input lainnya yang disertakan saat membuat model, seperti demografi pelanggan dan sebagainya. Setiap kluster (NODE_TYPE = 5) berisi simpul urutannya sendiri (NODE_TYPE = 13) yang hanya mencantumkan transisi yang digunakan dalam menghasilkan kluster tertentu. Dari simpul urutan, Anda dapat menelusuri paling detail untuk melihat detail transisi status individual (NODE_TYPE = 14).

Untuk penjelasan tentang transisi urutan dan status, dengan contoh, lihat Algoritma Pengklusteran Urutan Microsoft.

Konten Model untuk Model Pengklusteran Urutan

Bagian ini menyediakan informasi tambahan tentang kolom dalam konten model penambangan yang memiliki relevansi khusus untuk pengklusteran urutan.

MODEL_CATALOG
Nama database tempat model disimpan.

MODEL_NAME
Nama model.

ATTRIBUTE_NAME
Selalu kosong.

NODE_NAME
Nama node. Saat ini nilai yang sama dengan NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Nama unik simpul.

NODE_TYPE
Model pengklusteran urutan menghasilkan jenis node berikut:

ID Jenis Simpul Deskripsi
1 (Model) Simpul akar untuk model
5 (Kluster) Berisi jumlah transisi dalam kluster, daftar atribut, dan statistik yang menjelaskan nilai dalam kluster.
13 (Urutan) Berisi daftar transisi yang disertakan dalam kluster.
14 (Transisi) Menjelaskan urutan peristiwa sebagai tabel di mana baris pertama berisi status awal, dan semua baris lainnya berisi status berturut-turut, bersama dengan statistik dukungan dan probabilitas.

NODE_GUID
Kosong.

NODE_CAPTION
Label atau caption yang terkait dengan simpul untuk tujuan tampilan.

Anda dapat mengganti nama keterangan kluster saat menggunakan model; namun, nama baru tidak bertahan jika Anda menutup model.

CHILDREN_CARDINALITY
Perkiraan jumlah anak yang dimiliki simpul.

Akar model Nilai kardinalitas sama dengan jumlah kluster ditambah satu. Untuk informasi selengkapnya, lihat Kardinalitas.

Node kluster Kardinalitas selalu 1, karena setiap kluster memiliki satu simpul anak, yang berisi daftar urutan dalam kluster.

Simpul urutan Kardinalitas menunjukkan jumlah transisi yang disertakan dalam kluster tersebut. Misalnya, kardinalitas simpul urutan untuk akar model memberi tahu Anda berapa banyak transisi yang ditemukan di seluruh model.

PARENT_UNIQUE_NAME
Nama unik induk simpul.

NULL dikembalikan untuk simpul apa pun di tingkat akar.

NODE_DESCRIPTION
Sama seperti caption simpul.

NODE_RULE
Selalu kosong.

MARGINAL_RULE
Selalu kosong.

NODE_PROBABILITY
Akar model Selalu 0.

Node kluster Probabilitas kluster yang disesuaikan dalam model. Probabilitas yang disesuaikan tidak berjumlah 1, karena metode pengklusteran yang digunakan dalam pengklusteran urutan memungkinkan keanggotaan parsial di beberapa kluster.

Simpul urutan Selalu 0.

Simpul transisi Selalu 0.

MARGINAL_PROBABILITY
Akar model Selalu 0.

Node kluster Nilai yang sama dengan NODE_PROBABILITY.

Simpul urutan Selalu 0.

Simpul transisi Selalu 0.

NODE_DISTRIBUTION
Tabel yang berisi probabilitas dan informasi lainnya. Untuk informasi selengkapnya, lihat tabel NODE_DISTRIBUTION.

NODE_SUPPORT
Jumlah transisi yang mendukung simpul ini. Oleh karena itu, jika ada 30 contoh urutan "Produk A diikuti oleh Produk B" dalam data pelatihan, total dukungan adalah 30.

Akar model Jumlah total transisi dalam model.

Node kluster Dukungan mentah untuk kluster, yang berarti jumlah kasus pelatihan yang berkontribusi pada kluster ini.

Simpul urutan Selalu 0.

Simpul transisi Persentase kasus dalam kluster yang mewakili transisi tertentu. Bisa 0, atau bisa memiliki nilai positif. Dihitung dengan mengambil dukungan mentah untuk node kluster, dan dikalikan dengan probabilitas kluster.

Dari nilai ini, Anda dapat mengetahui berapa banyak kasus pelatihan yang berkontribusi pada transisi.

MSOLAP_MODEL_COLUMN
Tidak dapat diterapkan.

MSOLAP_NODE_SCORE
Tidak dapat diterapkan.

MSOLAP_NODE_SHORT_CAPTION
Sama seperti NODE_DESCRIPTION.

Memahami Urutan, Status, dan Transisi

Model pengklusteran urutan memiliki struktur unik yang menggabungkan dua jenis objek dengan jenis informasi yang sangat berbeda: yang pertama adalah kluster, dan yang kedua adalah transisi status.

Kluster yang dibuat oleh pengklusteran urutan seperti kluster yang dibuat oleh algoritma Microsoft Clustering. Setiap kluster memiliki profil dan karakteristik. Namun, secara berurutan pengklusteran, setiap kluster juga berisi satu simpul anak yang mencantumkan urutan dalam kluster tersebut. Setiap simpul urutan berisi beberapa simpul anak yang menjelaskan transisi status secara rinci, dengan probabilitas.

Hampir selalu ada lebih banyak urutan dalam model daripada yang dapat Anda temukan dalam satu kasus, karena urutannya dapat dirangkai bersama. Microsoft Analysis Services menyimpan pointer dari satu status ke status lainnya sehingga Anda dapat menghitung berapa kali setiap transisi terjadi. Anda juga dapat menemukan informasi tentang berapa kali urutan terjadi, dan mengukur kemungkinannya terjadi dibandingkan dengan seluruh set status yang diamati.

Tabel berikut ini meringkas bagaimana informasi disimpan dalam model, dan bagaimana simpul terkait.

Simpul Memiliki simpul anak tabel NODE_DISTRIBUTION
Akar model Beberapa node kluster

Simpul dengan urutan untuk seluruh model
Mencantumkan semua produk dalam model, dengan dukungan dan probabilitas.

Karena metode pengklusteran mengizinkan keanggotaan parsial dalam beberapa kluster, dukungan dan probabilitas dapat memiliki nilai pecahan. Artinya, alih-alih menghitung satu kasus sekali, setiap kasus berpotensi menjadi milik beberapa kluster. Oleh karena itu, ketika keanggotaan kluster akhir ditentukan, nilai disesuaikan oleh probabilitas kluster tersebut.
Simpul urutan untuk model Beberapa simpul transisi Mencantumkan semua produk dalam model, dengan dukungan dan probabilitas.

Karena jumlah urutan dikenal untuk model, pada tingkat ini, perhitungan untuk dukungan dan probabilitas sangat mudah:



Dukungan = jumlah kasus

Probabilitas = probabilitas mentah dari setiap urutan dalam model. Semua probabilitas harus berjumlah 1.
Node kluster individual Simpul dengan urutan untuk kluster tersebut saja Mencantumkan semua produk dalam kluster, tetapi menyediakan nilai dukungan dan probabilitas hanya untuk produk yang merupakan karakteristik kluster.

Dukungan mewakili nilai dukungan yang disesuaikan untuk setiap kasus dalam kluster ini. Probabilitas nilai adalah probabilitas yang disesuaikan.
Simpul urutan untuk kluster individual Beberapa simpul dengan transisi untuk urutan dalam kluster tersebut saja Informasi yang sama persis seperti pada node kluster individual.
Transisi Tidak ada anak Mencantumkan transisi untuk status pertama terkait.

Dukungan adalah nilai dukungan yang disesuaikan, menunjukkan kasus yang mengambil bagian dalam setiap transisi. Probabilitas adalah probabilitas yang disesuaikan, direpresentasikan sebagai persentase.

Tabel NODE_DISTRIBUTION

Tabel NODE_DISTRIBUTION menyediakan probabilitas terperinci dan informasi dukungan untuk transisi dan urutan untuk kluster tertentu.

Baris selalu ditambahkan ke tabel transisi untuk mewakili nilai yang mungkin hilang . Untuk informasi tentang arti nilai Hilang , dan pengaruhnya terhadap perhitungan, lihat Nilai yang Hilang (Analysis Services - Data Mining).

Perhitungan untuk dukungan dan probabilitas berbeda tergantung pada apakah perhitungan berlaku untuk kasus pelatihan atau ke model yang sudah selesai. Ini karena metode pengklusteran default, Expectation Maximization (EM), mengasumsikan bahwa setiap kasus dapat dimiliki oleh lebih dari satu kluster. Saat menghitung dukungan untuk kasus dalam model, dimungkinkan untuk menggunakan jumlah mentah dan probabilitas mentah. Namun, probabilitas untuk urutan tertentu dalam kluster harus ditimbang dengan jumlah semua kemungkinan urutan dan kombinasi kluster.

Kardinalitas

Dalam model pengklusteran, kardinalitas simpul induk umumnya memberi tahu Anda berapa banyak kluster dalam model. Namun, model pengklusteran urutan memiliki dua jenis node di tingkat kluster: satu jenis node berisi kluster, dan jenis node lainnya berisi daftar urutan untuk model secara keseluruhan.

Oleh karena itu, untuk mempelajari jumlah kluster dalam model, Anda dapat mengambil nilai NODE_CARDINALITY untuk simpul (Semua) dan mengurangi satu. Misalnya, jika model membuat 9 kluster, kardinalitas akar model adalah 10. Ini karena model berisi 9 node kluster, masing-masing dengan simpul urutannya sendiri, ditambah satu simpul urutan tambahan berlabel kluster 10, yang mewakili urutan untuk model.

Panduan Struktur

Contoh mungkin membantu mengklarifikasi bagaimana informasi disimpan, dan bagaimana Anda dapat menafsirkannya. Misalnya, Anda dapat menemukan urutan terbesar, yang berarti rantai terpanjang yang diamati dalam data AdventureWorksDW2012 yang mendasar , dengan menggunakan kueri berikut:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

Dari hasil ini, Anda menemukan bahwa nomor pesanan 'SO72656', 'SO58845', dan 'SO70714' berisi urutan terbesar, dengan masing-masing delapan item. Dengan menggunakan ID pesanan, Anda dapat melihat detail pesanan tertentu untuk melihat item mana yang dibeli, dan dalam urutan apa.

OrderNumber LineNumber Model
SO58845 1 Mountain-500
SO58845 2 Ban Gunung LL
SO58845 3 Tabung Ban Gunung
SO58845 4 Set Fender - Gunung
SO58845 5 Sangkar Botol Sepeda Gunung
SO58845 6 Botol Air
SO58845 7 Olahraga-100
SO58845 8 Long-Sleeve Logo Jersey

Namun, beberapa pelanggan yang membeli Mountain-500 mungkin membeli produk yang berbeda. Anda dapat melihat semua produk yang mengikuti Mountain-500 dengan melihat daftar urutan dalam model. Prosedur berikut memandang Anda melihat urutan ini dengan menggunakan dua penonton yang disediakan dalam SQL Server Analysis Services:

  1. Di Object Explorer, klik kanan model [Pengklusteran Urutan], dan pilih Telusuri.

  2. Di penampil Pengklusteran Urutan, klik tab Transisi Status .

  3. Di daftar dropdown Kluster , pastikan populasi (Semua) dipilih.

  4. Pindahkan bilah penggeling di sebelah kiri panel hingga ke atas, untuk memperlihatkan semua tautan.

  5. Dalam diagram, temukan Mountain-500, dan klik simpul dalam diagram.

  6. Garis yang disorot menunjuk ke status berikutnya (produk yang dibeli setelah Mountain-500) dan angka menunjukkan probabilitas. Bandingkan ini dengan hasil dalam penampil konten model generik.

  1. Di Object Explorer, klik kanan model [Pengklusteran Urutan], dan pilih Telusuri.

  2. Di daftar dropdown penampil, pilih Penampil Pohon Konten Generik Microsoft.

  3. Di panel Node caption, klik node bernama Tingkat urutan untuk kluster 16.

  4. Di panel Detail simpul, temukan baris NODE_DISTRIBUTION, dan klik di mana saja dalam tabel berlapis.

    Baris atas selalu untuk nilai Hilang. Baris ini adalah status urutan 0.

  5. Tekan tombol panah bawah, atau gunakan bilah gulir, untuk berpindah ke bawah melalui tabel berlapis hingga Anda melihat baris, Mountain-500.

    Baris ini adalah status urutan 20.

    Catatan

    Anda bisa mendapatkan nomor baris untuk status urutan tertentu secara terprogram, tetapi jika Anda hanya menelusuri, mungkin lebih mudah untuk hanya menyalin tabel berlapis ke dalam buku kerja Excel.

  6. Kembali ke panel Node caption, dan perluas node, Tingkat urutan untuk kluster 16, jika belum diperluas.

  7. Lihat di antara simpul anaknya untuk baris Transisi untuk status urutan 20. Klik simpul transisi.

  8. Tabel NODE_DISTRIBUTION berlapis berisi produk dan probabilitas berikut. Bandingkan ini dengan hasil di tab Transisi Status dari penampil Pengklusteran Urutan.

Tabel berikut ini memperlihatkan hasil dari tabel NODE_DISTRIBUTION, bersama dengan nilai probabilitas bulat yang ditampilkan dalam penampil grafis.

Produk Dukungan (tabel NODE_DISTRIBUTION) Tabel probabilitas (NODE_DISTRIBUTION) Probabilitas (dari grafik)
Tidak ada 48.447887 0.138028169 (tidak ditampilkan)
Tutup Bersepeda 10.876056 0.030985915 0,03
Set Fender - Gunung 80.087324 0.228169014 0.23
Sarung Tangan Half-Finger 0.9887324 0.002816901 0.00
Paket Hidrasi 0.9887324 0.002816901 0.00
Ban Gunung LL 51.414085 0.146478873 0,15
Long-Sleeve Logo Jersey 2.9661972 0.008450704 0.01
Sangkar Botol Sepeda Gunung 87.997183 0.250704225 0.25
Tabung Ban Gunung 16.808451 0.047887324 0,05
Short-Sleeve Classic Jersey 10.876056 0.030985915 0,03
Olahraga-100 20.76338 0.05915493 0,06
Botol Air 18.785915 0.053521127 0.25

Meskipun kasus yang awalnya kami pilih dari data pelatihan berisi produk 'Mountain-500' diikuti oleh 'LL Mountain Tire', Anda dapat melihat bahwa ada banyak urutan lain yang mungkin. Untuk menemukan informasi terperinci untuk kluster tertentu, Anda harus mengulangi proses penelusuran paling detail dari daftar urutan dalam kluster ke transisi aktual untuk setiap status, atau produk.

Anda dapat melompat dari urutan yang tercantum dalam satu kluster tertentu, ke baris transisi. Dari baris transisi tersebut, Anda dapat menentukan produk mana yang berikutnya, dan melompat kembali ke produk tersebut dalam daftar urutan. Dengan mengulangi proses ini untuk setiap status pertama dan kedua, Anda dapat bekerja melalui rantai status yang panjang.

Menggunakan Informasi Urutan

Skenario umum untuk pengklusteran urutan adalah melacak klik pengguna pada situs Web. Misalnya, jika data berasal dari catatan pembelian pelanggan di situs Web e-niaga Adventure Works, model pengklusteran urutan yang dihasilkan dapat digunakan untuk menyimpulkan perilaku pengguna, untuk mendesain ulang situs e-niaga untuk menyelesaikan masalah navigasi, atau untuk mempromosikan penjualan.

Misalnya, analisis mungkin menunjukkan bahwa pengguna selalu mengikuti rantai produk tertentu, terlepas dari demografi. Selain itu, Anda mungkin menemukan bahwa pengguna sering keluar dari situs setelah mengklik produk tertentu. Mengingat temuan itu, Anda mungkin menanyakan jalur tambahan apa yang dapat Anda berikan kepada pengguna yang akan menginduksi pengguna untuk tetap berada di situs Web.

Jika Anda tidak memiliki informasi tambahan untuk digunakan dalam mengklasifikasikan pengguna Anda, maka Anda cukup menggunakan informasi urutan untuk mengumpulkan data tentang navigasi untuk lebih memahami perilaku keseluruhan. Namun, jika Anda dapat mengumpulkan informasi tentang pelanggan dan mencocokkan informasi tersebut dengan database pelanggan, Anda dapat menggabungkan kekuatan pengklusteran dengan prediksi pada urutan untuk memberikan rekomendasi yang disesuaikan dengan pengguna, atau mungkin berdasarkan jalur navigasi ke halaman saat ini.

Penggunaan lain dari informasi status dan transisi ekstensif yang dikompilasi oleh model pengklusteran urutan adalah untuk menentukan jalur mana yang mungkin tidak pernah digunakan. Misalnya, jika Anda memiliki banyak pengunjung yang membuka halaman 1-4, tetapi pengunjung tidak pernah melanjutkan ke halaman 5, Anda dapat menyelidiki apakah ada masalah yang mencegah navigasi ke halaman 5. Anda dapat melakukan ini dengan mengkueri konten model, dan membandingkannya dengan daftar jalur yang mungkin. Grafik yang memberi tahu Anda semua jalur navigasi di situs Web dapat dibuat secara terprogram, atau dengan menggunakan berbagai alat analisis situs.

Untuk mengetahui cara mendapatkan daftar jalur yang diamati dengan mengkueri konten model, dan untuk melihat contoh kueri lain pada model pengklusteran urutan, lihat Contoh Kueri Model Pengklusteran Urutan.

Lihat juga

Konten Model Penambangan (Analysis Services - Penggalian Data)
Algoritma Pengklusteran Urutan Microsoft
Contoh Kueri Model Pengklusteran Urutan