Bagikan melalui


Algoritma Penggalian Data (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Algoritma dalam penggalian data (atau pembelajaran mesin) adalah serangkaian heuristik dan perhitungan yang membuat model dari data. Untuk membuat model, algoritma pertama-tama menganalisis data yang Anda berikan, mencari jenis pola atau tren tertentu. Algoritma menggunakan hasil analisis ini atas banyak iterasi untuk menemukan parameter optimal untuk membuat model penambangan. Parameter ini kemudian diterapkan di seluruh himpunan data untuk mengekstrak pola yang dapat ditindaklanjuti dan statistik terperinci.

Model penambangan yang dibuat algoritma dari data Anda dapat mengambil berbagai bentuk, termasuk:

  • Sekumpulan kluster yang menjelaskan bagaimana kasus dalam himpunan data terkait.

  • Pohon keputusan yang memprediksi hasil, dan menjelaskan bagaimana kriteria yang berbeda memengaruhi hasil tersebut.

  • Model matematika yang memperkirakan penjualan.

  • Seperangkat aturan yang menjelaskan bagaimana produk dikelompokkan bersama dalam transaksi, dan probabilitas bahwa produk dibeli bersama-sama.

Algoritma yang disediakan dalam SQL Server Data Mining adalah metode yang paling populer dan diteliti dengan baik dari pola yang berasal dari data. Untuk mengambil satu contoh, pengklusteran K-means adalah salah satu algoritma pengklusteran tertua dan tersedia secara luas di banyak alat yang berbeda dan dengan banyak implementasi dan opsi yang berbeda. Namun, implementasi khusus pengklusteran K-means yang digunakan dalam SQL Server Data Mining dikembangkan oleh Microsoft Research dan kemudian dioptimalkan untuk performa dengan SQL Server Analysis Services. Semua algoritma penambangan data Microsoft dapat disesuaikan secara luas dan sepenuhnya dapat diprogram, menggunakan API yang disediakan. Anda juga dapat mengotomatiskan pembuatan, pelatihan, dan pelatihan ulang model dengan menggunakan komponen penggalian data di Integration Services.

Anda juga dapat menggunakan algoritma pihak ketiga yang mematuhi spesifikasi OLE DB untuk Data Mining, atau mengembangkan algoritma kustom yang dapat didaftarkan sebagai layanan lalu digunakan dalam kerangka kerja SQL Server Data Mining.

Memilih Algoritma yang Tepat

Memilih algoritma terbaik untuk digunakan untuk tugas analitik tertentu bisa menjadi tantangan. Meskipun Anda dapat menggunakan algoritma yang berbeda untuk melakukan tugas bisnis yang sama, setiap algoritma menghasilkan hasil yang berbeda, dan beberapa algoritma dapat menghasilkan lebih dari satu jenis hasil. Misalnya, Anda dapat menggunakan algoritma Pohon Keputusan Microsoft tidak hanya untuk prediksi, tetapi juga sebagai cara untuk mengurangi jumlah kolom dalam himpunan data, karena pohon keputusan dapat mengidentifikasi kolom yang tidak memengaruhi model penambangan akhir.

Memilih Algoritma menurut Jenis

SQL Server Data Mining mencakup jenis algoritma berikut:

  • Algoritma klasifikasi memprediksi satu atau beberapa variabel diskrit, berdasarkan atribut lain dalam himpunan data.

  • Algoritma regresi memprediksi satu atau beberapa variabel numerik berkelanjutan, seperti laba atau rugi, berdasarkan atribut lain dalam himpunan data.

  • Algoritma segmentasi membagi data menjadi grup, atau kluster, dari item yang memiliki properti serupa.

  • Algoritma asosiasi menemukan korelasi antara atribut yang berbeda dalam himpunan data. Aplikasi paling umum dari algoritma semacam ini adalah untuk membuat aturan asosiasi, yang dapat digunakan dalam analisis ke basket pasar.

  • Algoritma analisis urutan meringkas urutan atau episode data yang sering, seperti serangkaian klik di situs web, atau serangkaian peristiwa log sebelum pemeliharaan mesin.

Namun, tidak ada alasan bahwa Anda harus terbatas pada satu algoritma dalam solusi Anda. Analis berpengalaman terkadang akan menggunakan satu algoritma untuk menentukan input yang paling efektif (yaitu, variabel), dan kemudian menerapkan algoritma yang berbeda untuk memprediksi hasil tertentu berdasarkan data tersebut. SQL Server Data Mining memungkinkan Anda membangun beberapa model pada satu struktur penambangan, jadi dalam satu solusi penambangan data Anda dapat menggunakan algoritma pengklusteran, model pohon keputusan, dan model Naïve Bayes untuk mendapatkan tampilan yang berbeda tentang data Anda. Anda juga dapat menggunakan beberapa algoritma dalam satu solusi untuk melakukan tugas terpisah: misalnya, Anda dapat menggunakan regresi untuk mendapatkan perkiraan keuangan, dan menggunakan algoritma jaringan neural untuk melakukan analisis faktor-faktor yang memengaruhi perkiraan.

Memilih Algoritma menurut Tugas

Untuk membantu Anda memilih algoritma untuk digunakan dengan tugas tertentu, tabel berikut ini menyediakan saran untuk jenis tugas yang setiap algoritmanya digunakan secara tradisional.

Contoh tugas Algoritma Microsoft untuk digunakan
Memprediksi atribut diskrit:

Benderai pelanggan dalam daftar calon pembeli sebagai prospek yang baik atau buruk.

Hitung probabilitas bahwa server akan gagal dalam 6 bulan ke depan.

Kategorikan hasil pasien dan jelajahi faktor terkait.
Algoritma Pohon Keputusan Microsoft

Algoritma Microsoft Naive Bayes

Algoritma Pengklusteran Microsoft

Algoritma Jaringan Neural Microsoft
Memprediksi atribut berkelanjutan:

Prakiraan penjualan tahun depan.

Memprediksi pengunjung situs yang diberikan tren historis dan musiman sebelumnya.

Hasilkan skor risiko yang diberikan demografi.
Algoritma Pohon Keputusan Microsoft

Algoritma Microsoft Time Series

Algoritma Regresi Linier Microsoft
Memprediksi urutan:

Lakukan analisis aliran klik situs Web perusahaan.

Analisis faktor-faktor yang mengarah ke kegagalan server.

Menangkap dan menganalisis urutan aktivitas selama kunjungan rawat jalan, untuk merumuskan praktik terbaik sekeliling aktivitas umum.
Algoritma Pengklusteran Urutan Microsoft
Menemukan grup item umum dalam transaksi:

Gunakan analisis keranjang pasar untuk menentukan penempatan produk.

Sarankan produk tambahan kepada pelanggan untuk dibeli.

Analisis data survei dari pengunjung ke suatu acara, untuk menemukan aktivitas atau stan mana yang berkorelasi, untuk merencanakan kegiatan di masa mendatang.
Algoritma Asosiasi Microsoft

Algoritma Pohon Keputusan Microsoft
Menemukan grup item serupa:

Buat grup profil risiko pasien berdasarkan atribut seperti demografi dan perilaku.

Analisis pengguna dengan menelusuri dan membeli pola.

Identifikasi server yang memiliki karakteristik penggunaan serupa.
Algoritma Pengklusteran Microsoft

Algoritma Pengklusteran Urutan Microsoft

Bagian berikut ini menyediakan tautan ke sumber daya pembelajaran untuk setiap algoritma penggalian data yang disediakan di SQL Server Data Mining:

Topik Deskripsi
Menentukan algoritma yang digunakan oleh model penggalian data Mengkueri Parameter yang Digunakan untuk Membuat Model Penambangan
Membuat Algoritma Plug-In Kustom Algoritma Plugin
Menjelajahi model menggunakan penampil khusus algoritma Penampil Model Penggalian Data
Menampilkan konten model menggunakan format tabel generik Menelusuri Model Menggunakan Penampil Pohon Konten Generik Microsoft
Pelajari tentang cara menyiapkan data Anda dan menggunakan algoritma untuk membuat model Struktur Pertambangan (Analysis Services - Penggalian Data)

Model Penambangan (Analysis Services - Penggalian Data)

Lihat juga

Alat Penggalian Data