Algoritma Penggalian Data (Analysis Services - Penggalian Data)
Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya
Penting
Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.
Algoritma dalam penggalian data (atau pembelajaran mesin) adalah serangkaian heuristik dan perhitungan yang membuat model dari data. Untuk membuat model, algoritma pertama-tama menganalisis data yang Anda berikan, mencari jenis pola atau tren tertentu. Algoritma menggunakan hasil analisis ini atas banyak iterasi untuk menemukan parameter optimal untuk membuat model penambangan. Parameter ini kemudian diterapkan di seluruh himpunan data untuk mengekstrak pola yang dapat ditindaklanjuti dan statistik terperinci.
Model penambangan yang dibuat algoritma dari data Anda dapat mengambil berbagai bentuk, termasuk:
Sekumpulan kluster yang menjelaskan bagaimana kasus dalam himpunan data terkait.
Pohon keputusan yang memprediksi hasil, dan menjelaskan bagaimana kriteria yang berbeda memengaruhi hasil tersebut.
Model matematika yang memperkirakan penjualan.
Seperangkat aturan yang menjelaskan bagaimana produk dikelompokkan bersama dalam transaksi, dan probabilitas bahwa produk dibeli bersama-sama.
Algoritma yang disediakan dalam SQL Server Data Mining adalah metode yang paling populer dan diteliti dengan baik dari pola yang berasal dari data. Untuk mengambil satu contoh, pengklusteran K-means adalah salah satu algoritma pengklusteran tertua dan tersedia secara luas di banyak alat yang berbeda dan dengan banyak implementasi dan opsi yang berbeda. Namun, implementasi khusus pengklusteran K-means yang digunakan dalam SQL Server Data Mining dikembangkan oleh Microsoft Research dan kemudian dioptimalkan untuk performa dengan SQL Server Analysis Services. Semua algoritma penambangan data Microsoft dapat disesuaikan secara luas dan sepenuhnya dapat diprogram, menggunakan API yang disediakan. Anda juga dapat mengotomatiskan pembuatan, pelatihan, dan pelatihan ulang model dengan menggunakan komponen penggalian data di Integration Services.
Anda juga dapat menggunakan algoritma pihak ketiga yang mematuhi spesifikasi OLE DB untuk Data Mining, atau mengembangkan algoritma kustom yang dapat didaftarkan sebagai layanan lalu digunakan dalam kerangka kerja SQL Server Data Mining.
Memilih Algoritma yang Tepat
Memilih algoritma terbaik untuk digunakan untuk tugas analitik tertentu bisa menjadi tantangan. Meskipun Anda dapat menggunakan algoritma yang berbeda untuk melakukan tugas bisnis yang sama, setiap algoritma menghasilkan hasil yang berbeda, dan beberapa algoritma dapat menghasilkan lebih dari satu jenis hasil. Misalnya, Anda dapat menggunakan algoritma Pohon Keputusan Microsoft tidak hanya untuk prediksi, tetapi juga sebagai cara untuk mengurangi jumlah kolom dalam himpunan data, karena pohon keputusan dapat mengidentifikasi kolom yang tidak memengaruhi model penambangan akhir.
Memilih Algoritma menurut Jenis
SQL Server Data Mining mencakup jenis algoritma berikut:
Algoritma klasifikasi memprediksi satu atau beberapa variabel diskrit, berdasarkan atribut lain dalam himpunan data.
Algoritma regresi memprediksi satu atau beberapa variabel numerik berkelanjutan, seperti laba atau rugi, berdasarkan atribut lain dalam himpunan data.
Algoritma segmentasi membagi data menjadi grup, atau kluster, dari item yang memiliki properti serupa.
Algoritma asosiasi menemukan korelasi antara atribut yang berbeda dalam himpunan data. Aplikasi paling umum dari algoritma semacam ini adalah untuk membuat aturan asosiasi, yang dapat digunakan dalam analisis ke basket pasar.
Algoritma analisis urutan meringkas urutan atau episode data yang sering, seperti serangkaian klik di situs web, atau serangkaian peristiwa log sebelum pemeliharaan mesin.
Namun, tidak ada alasan bahwa Anda harus terbatas pada satu algoritma dalam solusi Anda. Analis berpengalaman terkadang akan menggunakan satu algoritma untuk menentukan input yang paling efektif (yaitu, variabel), dan kemudian menerapkan algoritma yang berbeda untuk memprediksi hasil tertentu berdasarkan data tersebut. SQL Server Data Mining memungkinkan Anda membangun beberapa model pada satu struktur penambangan, jadi dalam satu solusi penambangan data Anda dapat menggunakan algoritma pengklusteran, model pohon keputusan, dan model Naïve Bayes untuk mendapatkan tampilan yang berbeda tentang data Anda. Anda juga dapat menggunakan beberapa algoritma dalam satu solusi untuk melakukan tugas terpisah: misalnya, Anda dapat menggunakan regresi untuk mendapatkan perkiraan keuangan, dan menggunakan algoritma jaringan neural untuk melakukan analisis faktor-faktor yang memengaruhi perkiraan.
Memilih Algoritma menurut Tugas
Untuk membantu Anda memilih algoritma untuk digunakan dengan tugas tertentu, tabel berikut ini menyediakan saran untuk jenis tugas yang setiap algoritmanya digunakan secara tradisional.
Contoh tugas | Algoritma Microsoft untuk digunakan |
---|---|
Memprediksi atribut diskrit: Benderai pelanggan dalam daftar calon pembeli sebagai prospek yang baik atau buruk. Hitung probabilitas bahwa server akan gagal dalam 6 bulan ke depan. Kategorikan hasil pasien dan jelajahi faktor terkait. |
Algoritma Pohon Keputusan Microsoft Algoritma Microsoft Naive Bayes Algoritma Pengklusteran Microsoft Algoritma Jaringan Neural Microsoft |
Memprediksi atribut berkelanjutan: Prakiraan penjualan tahun depan. Memprediksi pengunjung situs yang diberikan tren historis dan musiman sebelumnya. Hasilkan skor risiko yang diberikan demografi. |
Algoritma Pohon Keputusan Microsoft Algoritma Microsoft Time Series Algoritma Regresi Linier Microsoft |
Memprediksi urutan: Lakukan analisis aliran klik situs Web perusahaan. Analisis faktor-faktor yang mengarah ke kegagalan server. Menangkap dan menganalisis urutan aktivitas selama kunjungan rawat jalan, untuk merumuskan praktik terbaik sekeliling aktivitas umum. |
Algoritma Pengklusteran Urutan Microsoft |
Menemukan grup item umum dalam transaksi: Gunakan analisis keranjang pasar untuk menentukan penempatan produk. Sarankan produk tambahan kepada pelanggan untuk dibeli. Analisis data survei dari pengunjung ke suatu acara, untuk menemukan aktivitas atau stan mana yang berkorelasi, untuk merencanakan kegiatan di masa mendatang. |
Algoritma Asosiasi Microsoft Algoritma Pohon Keputusan Microsoft |
Menemukan grup item serupa: Buat grup profil risiko pasien berdasarkan atribut seperti demografi dan perilaku. Analisis pengguna dengan menelusuri dan membeli pola. Identifikasi server yang memiliki karakteristik penggunaan serupa. |
Algoritma Pengklusteran Microsoft Algoritma Pengklusteran Urutan Microsoft |
Konten terkait
Bagian berikut ini menyediakan tautan ke sumber daya pembelajaran untuk setiap algoritma penggalian data yang disediakan di SQL Server Data Mining:
Deskripsi algoritma dasar: Menjelaskan apa yang dilakukan algoritma dan cara kerjanya, dan menguraikan kemungkinan skenario bisnis di mana algoritma mungkin berguna.
Referensi teknis: Memberikan detail teknis tentang implementasi algoritma, dengan referensi akademik seperlunya. Mencantumkan parameter yang dapat Anda atur untuk mengontrol perilaku algoritma dan menyesuaikan hasil dalam model. Menjelaskan persyaratan data dan memberikan tips performa jika memungkinkan.
Konten model: Menjelaskan bagaimana informasi disusun dalam setiap jenis model penggalian data, dan menjelaskan cara menginterpretasikan informasi yang disimpan di setiap simpul.
Menambang Konten Model untuk Model Asosiasi (Analysis Services - Penggalian Data)
Menambang Konten Model untuk Model Pengklusteran (Analysis Services - Penggalian Data)
Menambang Konten Model untuk Model Pohon Keputusan (Analysis Services - Penggalian Data)
Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data)
Menambang Konten Model untuk Model Regresi Logistik (Analysis Services - Penggalian Data)
Menambang Konten Model untuk Naive Bayes Models (Analysis Services - Data Mining)
Menambang Konten Model untuk Model Jaringan Neural (Analysis Services - Penggalian Data)
Menambang Konten Model untuk Model Pengklusteran Urutan (Analysis Services - Penggalian Data)
Menambang Konten Model untuk Model Deret Waktu (Analysis Services - Penggalian Data)
Kueri penggalian data: Menyediakan beberapa kueri yang dapat Anda gunakan dengan setiap jenis model. Contohnya termasuk kueri konten yang memungkinkan Anda mempelajari selengkapnya tentang pola dalam model, dan kueri prediksi untuk membantu Anda membangun prediksi berdasarkan pola tersebut.
Tugas Terkait
Topik | Deskripsi |
---|---|
Menentukan algoritma yang digunakan oleh model penggalian data | Mengkueri Parameter yang Digunakan untuk Membuat Model Penambangan |
Membuat Algoritma Plug-In Kustom | Algoritma Plugin |
Menjelajahi model menggunakan penampil khusus algoritma | Penampil Model Penggalian Data |
Menampilkan konten model menggunakan format tabel generik | Menelusuri Model Menggunakan Penampil Pohon Konten Generik Microsoft |
Pelajari tentang cara menyiapkan data Anda dan menggunakan algoritma untuk membuat model | Struktur Pertambangan (Analysis Services - Penggalian Data) Model Penambangan (Analysis Services - Penggalian Data) |