Bagikan melalui


Algoritma Pengklusteran Urutan Microsoft

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Algoritma Pengklusteran Urutan Microsoft adalah algoritma unik yang menggabungkan analisis urutan dengan pengklusteran. Anda dapat menggunakan algoritma ini untuk menjelajahi data yang berisi peristiwa yang dapat ditautkan secara berurutan. Algoritma menemukan urutan yang paling umum, dan melakukan pengklusteran untuk menemukan urutan yang serupa. Contoh berikut mengilustrasikan jenis urutan yang mungkin Anda ambil sebagai data untuk pembelajaran mesin, untuk memberikan wawasan tentang masalah umum atau skenario bisnis:

  • Clickstream atau klik jalur yang dihasilkan saat pengguna menavigasi atau menelusuri situs Web

  • Log yang mencantumkan peristiwa sebelum insiden, seperti kegagalan hard disk atau kebuntuan server

  • Catatan transaksi yang menjelaskan urutan pelanggan menambahkan item ke ke cart belanja online

  • Catatan yang mengikuti interaksi pelanggan atau pasien dari waktu ke waktu, untuk memprediksi pembatalan layanan atau hasil buruk lainnya

Algoritma ini mirip dalam banyak cara dengan algoritma Pengklusteran Microsoft. Namun, alih-alih menemukan kluster kasus yang berisi atribut serupa, algoritma Pengklusteran Urutan Microsoft menemukan kluster kasus yang berisi jalur serupa secara berurutan.

Contoh

Situs web Adventure Works Cycles mengumpulkan informasi tentang halaman apa yang dikunjungi pengguna situs, dan tentang urutan halaman dikunjungi. Karena perusahaan menyediakan pemesanan online, pelanggan harus masuk ke situs. Ini memberi perusahaan informasi klik untuk setiap profil pelanggan. Dengan menggunakan algoritma Pengklusteran Urutan Microsoft pada data ini, perusahaan dapat menemukan grup, atau kluster, dari pelanggan yang memiliki pola atau urutan klik yang sama. Perusahaan kemudian dapat menggunakan kluster ini untuk menganalisis bagaimana pengguna berpindah melalui situs Web, untuk mengidentifikasi halaman mana yang paling terkait erat dengan penjualan produk tertentu, dan untuk memprediksi halaman mana yang kemungkinan besar akan dikunjungi berikutnya.

Cara Kerja Algoritma

Algoritma Pengklusteran Urutan Microsoft adalah algoritma hibrid yang menggabungkan teknik pengklusteran dengan analisis rantai Markov untuk mengidentifikasi kluster dan urutannya. Salah satu keunggulan algoritma Pengklusteran Urutan Microsoft adalah menggunakan data urutan. Data ini biasanya mewakili serangkaian peristiwa atau transisi antar status dalam himpunan data, seperti serangkaian pembelian produk atau klik Web untuk pengguna tertentu. Algoritma memeriksa semua probabilitas transisi dan mengukur perbedaan, atau jarak, antara semua urutan yang mungkin dalam himpunan data untuk menentukan urutan mana yang terbaik untuk digunakan sebagai input untuk pengklusteran. Setelah algoritma membuat daftar urutan kandidat, algoritma menggunakan informasi urutan sebagai input untuk pengklusteran menggunakan Ekspektasi maksimalisasi (EM).

Untuk deskripsi terperinci tentang implementasi, lihat Referensi Teknis Algoritma Pengklusteran Urutan Microsoft.

Data yang Diperlukan untuk Model Pengklusteran Urutan

Ketika Anda menyiapkan data untuk digunakan dalam melatih model pengklusteran urutan, Anda harus memahami persyaratan untuk algoritma tertentu, termasuk berapa banyak data yang diperlukan, dan bagaimana data digunakan.

Persyaratan untuk model pengklusteran urutan adalah sebagai berikut:

  • Kolom kunci tunggal Model pengklusteran urutan memerlukan kunci yang mengidentifikasi rekaman.

  • Kolom urutan Untuk data urutan, model harus memiliki tabel berlapis yang berisi kolom ID urutan. ID urutan dapat berupa jenis data yang dapat diurutkan. Misalnya, Anda dapat menggunakan pengidentifikasi halaman Web, bilangan bulat, atau string teks, selama kolom mengidentifikasi peristiwa secara berurutan. Hanya satu pengidentifikasi urutan yang diizinkan untuk setiap urutan, dan hanya satu jenis urutan yang diizinkan di setiap model.

  • Atribut non-urutan opsional Algoritma mendukung penambahan atribut lain yang tidak terkait dengan pengurutan. Atribut ini dapat mencakup kolom berlapis.

Misalnya, dalam contoh yang dikutip sebelumnya dari situs Web Adventure Works Cycles, model pengklusteran urutan mungkin menyertakan informasi pesanan sebagai tabel kasus, demografi tentang pelanggan tertentu untuk setiap pesanan sebagai atribut non-urutan, dan tabel berlapis yang berisi urutan di mana pelanggan menelusuri situs atau memasukkan item ke dalam ke cart belanja sebagai informasi urutan.

Untuk informasi selengkapnya tentang jenis konten dan jenis data yang didukung untuk model pengklusteran urutan, lihat bagian Persyaratan dari Referensi Teknis Algoritma Pengklusteran Urutan Microsoft.

Menampilkan Model Pengklusteran Urutan

Model penambangan yang dibuat algoritma ini berisi deskripsi urutan yang paling umum dalam data. Untuk menjelajahi model, Anda dapat menggunakan Penampil Kluster Urutan Microsoft. Saat Anda melihat model pengklusteran urutan, SQL Server Analysis Services menunjukkan kepada Anda kluster yang berisi beberapa transisi. Anda juga dapat melihat statistik yang bersangkutan. Untuk informasi selengkapnya, lihat Menelusuri Model Menggunakan Penampil Kluster Urutan Microsoft.

Jika Anda ingin mengetahui detail selengkapnya, Anda dapat menelusuri model di Penampil Pohon Konten Generik Microsoft. Konten yang disimpan untuk model mencakup distribusi untuk semua nilai di setiap simpul, probabilitas setiap kluster, dan detail tentang transisi. Untuk informasi selengkapnya, lihat Menambang Konten Model untuk Model Pengklusteran Urutan (Analysis Services - Penggalian Data).

Membuat Prediksi

Setelah model dilatih, hasilnya disimpan sebagai serangkaian pola. Anda dapat menggunakan deskripsi urutan yang paling umum dalam data untuk memprediksi langkah urutan baru berikutnya yang kemungkinan besar. Namun, karena algoritma menyertakan kolom lain, Anda dapat menggunakan model yang dihasilkan untuk mengidentifikasi hubungan antara data berurutan dan input yang tidak berurutan. Misalnya, jika Anda menambahkan data demografis ke model, Anda dapat membuat prediksi untuk grup pelanggan tertentu. Kueri prediksi dapat disesuaikan untuk mengembalikan jumlah variabel prediksi, atau untuk mengembalikan statistik deskriptif.

Untuk informasi tentang cara membuat kueri terhadap model penggalian data, lihat Kueri Penggalian Data. Untuk contoh cara menggunakan kueri dengan model pengklusteran urutan, lihat Contoh Kueri Model Pengklusteran Urutan.

Keterangan

  • Tidak mendukung penggunaan Predictive Model Markup Language (PMML) untuk membuat model penambangan.

  • Mendukung penelusuran.

  • Mendukung penggunaan model penambangan OLAP dan pembuatan dimensi penambangan data.

Lihat juga

Algoritma Penggalian Data (Analysis Services - Penggalian Data)
Referensi Teknis Algoritma Pengklusteran Urutan Microsoft
Contoh Kueri Model Pengklusteran Urutan
Menelusuri Model Menggunakan Penampil Kluster Urutan Microsoft