Konsep Penggalian Data

Artikel
12/23/2023

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Penggalian data adalah proses menemukan informasi yang dapat ditindak lanjuti dari sekumpulan besar data. Penggalian data menggunakan analisis matematika untuk memperoleh pola dan tren yang ada dalam data. Biasanya, pola-pola ini tidak dapat ditemukan oleh eksplorasi data tradisional karena hubungannya terlalu kompleks atau karena ada terlalu banyak data.

Pola dan tren ini dapat dikumpulkan dan didefinisikan sebagai model penambangan data. Model penambangan dapat diterapkan ke skenario tertentu, seperti:

Prakiraan: Memperkirakan penjualan, memprediksi beban server, atau waktu henti server
Risiko dan probabilitas: Memilih pelanggan terbaik untuk surat-menyurat yang ditargetkan, menentukan kemungkinan titik jeda untuk skenario risiko, menetapkan probabilitas untuk mendiagnosis atau hasil lainnya
Rekomendasi: Menentukan produk mana yang kemungkinan akan dijual bersama-sama, menghasilkan rekomendasi
Menemukan urutan: Menganalisis pilihan pelanggan di kelopak belanja, memprediksi peristiwa kemungkinan berikutnya
Pengelompokan: Memisahkan pelanggan atau peristiwa ke dalam kluster item terkait, menganalisis dan memprediksi afinitas

Membangun model penambangan adalah bagian dari proses yang lebih besar yang mencakup semuanya mulai dari mengajukan pertanyaan tentang data dan membuat model untuk menjawab pertanyaan tersebut, hingga menyebarkan model ke lingkungan kerja. Proses ini dapat ditentukan dengan menggunakan enam langkah dasar berikut:

Menentukan Masalah
Menyiapkan Data
Menjelajahi Data
Membangun Model
Menjelajahi dan Memvalidasi Model
Menyebarkan dan Memperbarui Model

Diagram berikut menjelaskan hubungan antara setiap langkah dalam proses, dan teknologi di Microsoft SQL Server yang dapat Anda gunakan untuk menyelesaikan setiap langkah.

Langkah-langkah utama dalam proses penggalian data

Proses yang diilustrasikan dalam diagram bersifat siklus, yang berarti bahwa membuat model penggalian data adalah proses yang dinamis dan berulang. Setelah Anda menjelajahi data, Anda mungkin menemukan bahwa data tidak cukup untuk membuat model penambangan yang sesuai, dan karena itu Anda harus mencari lebih banyak data. Atau, Anda dapat membangun beberapa model dan kemudian menyadari bahwa model tidak cukup menjawab masalah yang Anda tentukan, dan oleh karena itu Anda harus menentukan ulang masalah. Anda mungkin harus memperbarui model setelah disebarkan karena lebih banyak data telah tersedia. Setiap langkah dalam proses mungkin perlu diulang berkali-kali untuk membuat model yang baik.

Microsoft SQL Server Data Mining menyediakan lingkungan terintegrasi untuk membuat dan bekerja dengan model penambangan data. Lingkungan ini mencakup SQL Server Development Studio, yang berisi algoritma penggalian data dan alat kueri yang memudahkan untuk membangun solusi komprehensif untuk berbagai proyek, dan SQL Server Management Studio, yang berisi alat untuk menelusuri model dan mengelola objek penggalian data. Untuk informasi selengkapnya, lihat Membuat Model Multidimensi Menggunakan SQL Server Data Tools (SSDT).

Untuk contoh bagaimana alat SQL Server dapat diterapkan ke skenario bisnis, lihat Tutorial Penggalian Data Dasar.

Menentukan Masalah

Langkah pertama dalam proses penggalian data, seperti yang disorot dalam diagram berikut, adalah menentukan masalah dengan jelas, dan mempertimbangkan cara data dapat digunakan untuk memberikan jawaban atas masalah tersebut.

Langkah pertama penggalian data: menentukan

Langkah ini termasuk menganalisis persyaratan bisnis, menentukan cakupan masalah, menentukan metrik di mana model akan dievaluasi, dan menentukan tujuan tertentu untuk proyek penggalian data. Tugas-tugas ini diterjemahkan ke dalam pertanyaan seperti berikut ini:

Apa yang Anda cari? Jenis hubungan apa yang coba Anda temukan?
Apakah masalah yang coba Anda selesaikan mencerminkan kebijakan atau proses bisnis?
Apakah Anda ingin membuat prediksi dari model penggalian data, atau hanya mencari pola dan asosiasi yang menarik?
Hasil atau atribut mana yang ingin Anda coba prediksi?
Jenis data apa yang Anda miliki dan jenis informasi apa yang ada di setiap kolom? Jika ada beberapa tabel, bagaimana tabel terkait? Apakah Anda perlu melakukan pembersihan, agregasi, atau pemrosesan untuk membuat data dapat digunakan?
Bagaimana data didistribusikan? Apakah data bersifat musiman? Apakah data secara akurat mewakili proses bisnis?

Untuk menjawab pertanyaan-pertanyaan ini, Anda mungkin harus melakukan studi ketersediaan data, untuk menyelidiki kebutuhan pengguna bisnis sehubungan dengan data yang tersedia. Jika data tidak mendukung kebutuhan pengguna, Anda mungkin harus menentukan ulang proyek.

Anda juga perlu mempertimbangkan cara-cara di mana hasil model dapat dimasukkan dalam indikator performa utama (KPI) yang digunakan untuk mengukur kemajuan bisnis.

Menyiapkan Data

Langkah kedua dalam proses penggalian data, seperti yang disorot dalam diagram berikut, adalah mengonsolidasikan dan membersihkan data yang diidentifikasi dalam langkah Menentukan Masalah .

Langkah kedua penggalian data: menyiapkan

Data dapat tersebar di seluruh perusahaan dan disimpan dalam format yang berbeda, atau mungkin berisi inkonsistensi seperti entri yang salah atau hilang. Misalnya, data mungkin menunjukkan bahwa pelanggan membeli produk sebelum produk ditawarkan di pasar, atau bahwa pelanggan berbelanja secara teratur di toko yang terletak 2.000 mil dari rumahnya.

Pembersihan data bukan hanya tentang menghapus data yang buruk atau menginterpolasi nilai yang hilang, tetapi tentang menemukan korelasi tersembunyi dalam data, mengidentifikasi sumber data yang paling akurat, dan menentukan kolom mana yang paling tepat untuk digunakan dalam analisis. Misalnya, haruskah Anda menggunakan tanggal pengiriman atau tanggal pesanan? Apakah influencer penjualan terbaik adalah kuantitas, harga total, atau harga diskon? Data yang tidak lengkap, data yang salah, dan input yang tampak terpisah tetapi sebenarnya sangat berkorelasi semua dapat memengaruhi hasil model dengan cara yang tidak Anda harapkan.

Oleh karena itu, sebelum Anda mulai membangun model penambangan, Anda harus mengidentifikasi masalah ini dan menentukan bagaimana Anda akan memperbaikinya. Untuk penggalian data biasanya Anda bekerja dengan himpunan data yang sangat besar dan tidak dapat memeriksa setiap transaksi untuk kualitas data; oleh karena itu, Anda mungkin perlu menggunakan beberapa bentuk pembuatan profil data dan alat pembersihan dan pemfilteran data otomatis, seperti yang disediakan dalam Layanan Integrasi, microsoft SQL Server 2012 Master Data Services, atau SQL Server Layanan Kualitas Data untuk menjelajahi data dan menemukan inkonsistensi. Untuk informasi selengkapnya, lihat sumber daya berikut:

Penting untuk dicatat bahwa data yang Anda gunakan untuk penggalian data tidak perlu disimpan dalam kubus Pemrosesan Analitik Online (OLAP), atau bahkan dalam database relasional, meskipun Anda dapat menggunakan keduanya sebagai sumber data. Anda dapat melakukan penggalian data menggunakan sumber data apa pun yang telah didefinisikan sebagai sumber data SQL Server Analysis Services. Ini dapat mencakup file teks, buku kerja Excel, atau data dari penyedia eksternal lainnya. Untuk informasi selengkapnya, lihat Sumber Data yang Didukung (SSAS - Multidimensi).

Menjelajahi Data

Langkah ketiga dalam proses penggalian data, seperti yang disorot dalam diagram berikut, adalah menjelajahi data yang disiapkan.

Langkah ketiga penggalian data: menjelajahi

Anda harus memahami data untuk membuat keputusan yang tepat saat membuat model penambangan. Teknik eksplorasi termasuk menghitung nilai minimum dan maksimum, menghitung rata-rata dan simpang siur standar, dan melihat distribusi data. Misalnya, Anda dapat menentukan dengan meninjau nilai maksimum, minimum, dan rata-rata bahwa data tidak mewakili pelanggan atau proses bisnis Anda, dan oleh karena itu Anda harus mendapatkan data yang lebih seimbang atau meninjau asumsi yang menjadi dasar harapan Anda. Simpangan baku dan nilai distribusi lainnya dapat memberikan informasi yang berguna tentang stabilitas dan akurasi hasil. Penyimpangan standar yang besar dapat menunjukkan bahwa menambahkan lebih banyak data dapat membantu Anda meningkatkan model. Data yang sangat menyimpang dari distribusi standar mungkin miring, atau mungkin mewakili gambaran yang akurat tentang masalah kehidupan nyata, tetapi membuatnya sulit untuk menyesuaikan model dengan data.

Dengan menjelajahi data mengingat pemahaman Anda sendiri tentang masalah bisnis, Anda dapat memutuskan apakah himpunan data berisi data yang cacat, dan kemudian Anda dapat menyusun strategi untuk memperbaiki masalah atau mendapatkan pemahaman yang lebih mendalam tentang perilaku yang khas dari bisnis Anda.

Anda dapat menggunakan alat seperti Master Data Services ke kanvas sumber data yang tersedia dan menentukan ketersediaannya untuk penggalian data. Anda dapat menggunakan alat seperti SQL Server Layanan Kualitas Data, atau Profiler Data di Layanan Integrasi, untuk menganalisis distribusi data Anda dan memperbaiki masalah seperti data yang salah atau hilang.

Setelah menentukan sumber, Anda menggabungkannya dalam tampilan Sumber Data dengan menggunakan tampilan Sumber Data Designer di SQL Server Data Tools. Untuk informasi selengkapnya, lihat Tampilan Sumber Data dalam Model Multidimensi. Perancang ini juga berisi beberapa alat yang dapat Anda gunakan untuk menjelajahi data dan memverifikasi bahwa itu akan berfungsi untuk membuat model. Untuk informasi selengkapnya, lihat Menjelajahi Data dalam Tampilan Sumber Data (Analysis Services).

Perhatikan bahwa saat Anda membuat model, SQL Server Analysis Services secara otomatis membuat ringkasan statistik data yang terkandung dalam model, yang dapat Anda kueri untuk digunakan dalam laporan atau analisis lebih lanjut. Untuk informasi selengkapnya, lihat Kueri Penggalian Data.

Membangun Model

Langkah keempat dalam proses penggalian data, seperti yang disorot dalam diagram berikut, adalah membangun model atau model penambangan. Anda akan menggunakan pengetahuan yang Anda peroleh dalam langkah Menjelajahi Data untuk membantu menentukan dan membuat model.

Langkah keempat penggalian data: membangun model penambangan

Anda menentukan kolom data yang ingin Anda gunakan dengan membuat struktur penambangan. Struktur penambangan ditautkan ke sumber data, tetapi sebenarnya tidak berisi data apa pun sampai Anda memprosesnya. Saat Anda memproses struktur penambangan, SQL Server Analysis Services menghasilkan agregat dan informasi statistik lainnya yang dapat digunakan untuk analisis. Informasi ini dapat digunakan oleh model penambangan apa pun yang didasarkan pada struktur. Untuk informasi selengkapnya tentang bagaimana struktur penambangan terkait dengan model penambangan, lihat Arsitektur Logis (Analysis Services - Data Mining).

Sebelum struktur dan model diproses, model penggalian data juga hanyalah kontainer yang menentukan kolom yang digunakan untuk input, atribut yang Anda prediksi, dan parameter yang memberi tahu algoritma cara memproses data. Memproses model sering disebut pelatihan. Pelatihan mengacu pada proses penerapan algoritma matematika tertentu ke data dalam struktur untuk mengekstrak pola. Pola yang Anda temukan dalam proses pelatihan bergantung pada pemilihan data pelatihan, algoritma yang Anda pilih, dan bagaimana Anda telah mengonfigurasi algoritma. SQL Server 2017 berisi banyak algoritma yang berbeda, masing-masing cocok untuk jenis tugas yang berbeda, dan masing-masing membuat jenis model yang berbeda. Untuk daftar algoritma yang disediakan pada SQL Server 2017, lihat Algoritma Penggalian Data (Analysis Services - Penggalian Data).

Anda juga dapat menggunakan parameter untuk menyesuaikan setiap algoritma, dan Anda dapat menerapkan filter ke data pelatihan untuk hanya menggunakan subset data, membuat hasil yang berbeda. Setelah Anda meneruskan data melalui model, objek model penambangan berisi ringkasan dan pola yang dapat dikueri atau digunakan untuk prediksi.

Anda dapat menentukan model baru dengan menggunakan Panduan Penggalian Data di SQL Server Data Tools, atau dengan menggunakan bahasa Ekstensi Penggalian Data (DMX). Untuk informasi selengkapnya tentang cara menggunakan Panduan Penggalian Data, lihat Panduan Penggalian Data (Analysis Services - Penggalian Data). Untuk informasi selengkapnya tentang cara menggunakan DMX, lihat Referensi Ekstensi Penggalian Data (DMX).

Penting untuk diingat bahwa setiap kali data berubah, Anda harus memperbarui struktur penambangan dan model penambangan. Saat Anda memperbarui struktur penambangan dengan memprosesnya kembali, SQL Server Analysis Services mengambil data dari sumbernya, termasuk data baru jika sumbernya diperbarui secara dinamis, dan mengisi ulang struktur penambangan. Jika Anda memiliki model yang didasarkan pada struktur, Anda dapat memilih untuk memperbarui model yang didasarkan pada struktur, yang berarti model tersebut dilatih kembali pada data baru, atau Anda dapat membiarkan model apa adanya. Untuk informasi selengkapnya, lihat Persyaratan dan Pertimbangan Pemrosesan (Penggalian Data).

Menjelajahi dan Memvalidasi Model

Langkah kelima dalam proses penambangan data, seperti yang disorot dalam diagram berikut, adalah menjelajahi model penambangan yang telah Anda bangun dan uji efektivitasnya.

Langkah kelima penggalian data: memvalidasi model penambangan

Sebelum Anda menyebarkan model ke lingkungan produksi, Anda akan ingin menguji seberapa baik performa model. Selain itu, saat membuat model, Anda biasanya membuat beberapa model dengan konfigurasi yang berbeda dan menguji semua model untuk melihat hasil terbaik untuk masalah dan data Anda.

SQL Server Analysis Services menyediakan alat yang membantu Anda memisahkan data menjadi himpunan data pelatihan dan pengujian sehingga Anda dapat menilai performa semua model secara akurat pada data yang sama. Anda menggunakan himpunan data pelatihan untuk membangun model, dan himpunan data pengujian untuk menguji akurasi model dengan membuat kueri prediksi. Pemartisian ini dapat dilakukan secara otomatis saat membangun model penambangan. Untuk informasi selengkapnya, lihat Pengujian dan Validasi (Penggalian Data).

Anda dapat menjelajahi tren dan pola yang ditemukan algoritma dengan menggunakan pemirsa di Designer Penggalian Data di SQL Server Data Tools. Untuk informasi selengkapnya, lihat Penampil Model Penggalian Data. Anda juga dapat menguji seberapa baik model membuat prediksi dengan menggunakan alat di perancang seperti bagan angkat dan matriks klasifikasi. Untuk memverifikasi apakah model khusus untuk data Anda, atau dapat digunakan untuk membuat inferensi pada populasi umum, Anda dapat menggunakan teknik statistik yang disebut validasi silang untuk secara otomatis membuat subset data dan menguji model terhadap setiap subset. Untuk informasi selengkapnya, lihat Pengujian dan Validasi (Penggalian Data).

Jika tidak ada model yang Anda buat di langkah Model Bangunan yang berkinerja baik, Anda mungkin harus kembali ke langkah sebelumnya dalam proses dan menentukan ulang masalah atau menginvestigasi ulang data dalam himpunan data asli.

Menyebarkan dan Memperbarui Model

Langkah terakhir dalam proses penggalian data, seperti yang disorot dalam diagram berikut, adalah menyebarkan model yang melakukan yang terbaik ke lingkungan produksi.

Langkah keenam penggalian data: menyebarkan model penambangan Penambangan data

Setelah model penambangan ada di lingkungan produksi, Anda dapat melakukan banyak tugas, tergantung pada kebutuhan Anda. Berikut ini adalah beberapa tugas yang bisa Anda lakukan:

Gunakan model untuk membuat prediksi, yang kemudian dapat Anda gunakan untuk membuat keputusan bisnis. SQL Server menyediakan bahasa DMX yang bisa Anda gunakan untuk membuat kueri prediksi, dan Penyusun Kueri Prediksi untuk membantu Anda membuat kueri. Untuk informasi selengkapnya, lihat Referensi Ekstensi Penggalian Data (DMX).
Buat kueri konten untuk mengambil statistik, aturan, atau rumus dari model. Untuk informasi selengkapnya, lihat Kueri Penggalian Data.
Sematkan fungsionalitas penggalian data langsung ke dalam aplikasi. Anda dapat menyertakan Analysis Management Objects (AMO), yang berisi sekumpulan objek yang dapat digunakan aplikasi Anda untuk membuat, mengubah, memproses, dan menghapus struktur penambangan dan model penambangan. Atau, Anda dapat mengirim pesan XML untuk Analisis (XMLA) langsung ke instans SQL Server Analysis Services. Untuk informasi selengkapnya, lihat Pengembangan (Analysis Services - Penggalian Data).
Gunakan Layanan Integrasi untuk membuat paket di mana model penambangan digunakan untuk memisahkan data masuk secara cerdas ke dalam beberapa tabel. Misalnya, jika database terus diperbarui dengan pelanggan potensial, Anda dapat menggunakan model penambangan bersama dengan Layanan Integrasi untuk membagi data masuk menjadi pelanggan yang cenderung membeli produk dan pelanggan yang kemungkinan tidak membeli produk. Untuk informasi selengkapnya, lihat Penggunaan Umum Layanan Integrasi.
Buat laporan yang memungkinkan pengguna langsung mengkueri model penambangan yang ada. Untuk informasi selengkapnya, lihat Reporting Services di SQL Server Data Tools (SSDT).
Perbarui model setelah peninjauan dan analisis. Pembaruan apa pun mengharuskan Anda memproses ulang model. Untuk informasi selengkapnya, lihat Memproses Objek Penggalian Data.
Perbarui model secara dinamis, karena lebih banyak data masuk ke organisasi, dan buat perubahan konstan untuk meningkatkan efektivitas solusi harus menjadi bagian dari strategi penyebaran. Untuk informasi selengkapnya, lihat Manajemen Solusi dan Objek Penggalian Data

Lihat juga

Solusi Penggalian Data
Alat Penggalian Data

Bagikan melalui