Bagikan melalui


Membuat Struktur Penambangan OLAP

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Ada banyak keuntungan untuk membuat model penambangan data berdasarkan kubus OLAP atau penyimpanan data multidimensi lainnya. Solusi OLAP sudah berisi sejumlah besar data yang terorganisir dengan baik, dibersihkan, dan diformat dengan benar; namun, kompleksitas data sia-sia sehingga pengguna tidak mungkin menemukan pola yang bermakna dengan eksplorasi ad hoc. Penggalian data menawarkan kemampuan untuk menemukan korelasi baru dan memberikan wawasan yang dapat ditindaklanjuti.

Topik ini menjelaskan cara membuat struktur penambangan OLAP, berdasarkan dimensi dan langkah-langkah terkait dalam solusi multidimensi yang ada.

Persyaratan

Gambaran Umum Proses Penggalian Data OLAP

Skenario untuk Menggunakan Penggalian Data di Solusi OLAP

Filter

Menggunakan Tabel Berlapis

Dimensi Penggalian Data

Persyaratan untuk Struktur dan Model Penambangan OLAP

Jika Anda merancang model penambangan OLAP, sumber data Anda sudah ada, dalam database yang digunakan untuk membangun kubus. Anda tidak dapat tersambung ke kubus jarak jauh dan membangun objek penggalian data; objek kubus harus tersedia dalam solusi yang sama dengan database dengan struktur penambangan yang akan Anda bangun.

Jika Anda tidak memiliki file proyek asli, atau tidak ingin mengubahnya, Anda dapat menggunakan opsi di Visual Studio, Mengimpor dari Server (Multidirmansional atau Penggalian Data), untuk mendapatkan salinan metadata dan objek solusi. Anda kemudian dapat mengubah target penyebaran, mengedit sumber data, dan bekerja dengan objek kubus tanpa memengaruhi objek yang ada.

Untuk informasi selengkapnya, lihat Mengimpor Proyek Penggalian Data menggunakan Wizard Impor Analysis Services.

Gambaran Umum Proses Penggalian Data OLAP

Mulai Panduan Penggalian Data dengan mengklik kanan simpul Struktur Penambangan di Penjelajah Solusi, dan pilih Struktur Penambangan Baru. Wizard memandu Anda melalui langkah-langkah berikut untuk membuat struktur untuk struktur dan model baru:

  1. Pilih Metode Definisi: Di sini Anda memilih jenis sumber data, dan pilih Dari kubus yang ada.

    Catatan

    Kubus OLAP yang Anda gunakan sebagai sumber harus ada dalam database yang sama dengan struktur penambangan, seperti yang dijelaskan di atas. Selain itu, Anda tidak dapat menggunakan kubus yang dibuat oleh add-in Power Pivot untuk Excel sebagai sumber untuk penggalian data.

  2. Buat Struktur Penggalian Data: Tentukan apakah Anda hanya akan membangun struktur, atau struktur dengan model penambangan.

    Anda juga harus memilih algoritma yang sesuai untuk menganalisis data Anda. Untuk panduan tentang algoritma mana yang terbaik untuk tugas tertentu, lihat HYPERLINK "ms-help://SQL111033/as_1devconc/html/ed1fc83b-b98c-437e-bf53-4ff001b92d64.htm" Algoritma Penggalian Data (Analysis Services - Penggalian Data).

  3. Pilih Dimensi Kubus Sumber: Langkah ini sama dengan memilih sumber data. Anda perlu memilih dimensi tunggal yang berisi data terpenting yang digunakan untuk melatih model Anda. Anda dapat menambahkan data dari dimensi lain nanti, atau memfilter dimensi.

  4. Pilih Kunci Kasus: Dalam dimensi yang baru saja Anda pilih, pilih atribut (kolom) untuk berfungsi sebagai pengidentifikasi unik untuk data kasus Anda.

    Biasanya kolom akan dipilih sebelumnya untuk Anda, tetapi Anda dapat mengubah kolom jika sebenarnya ada beberapa kunci.

  5. Memilih Kolom Tingkat Kasus: Di sini Anda memilih atribut dari dimensi yang dipilih, dan langkah-langkah terkait, yang relevan dengan analisis Anda. Langkah ini setara dengan memilih kolom dari tabel.

    Wizard secara otomatis menyertakan untuk tinjauan Anda dan memilih tindakan apa pun yang dibuat menggunakan atribut dari dimensi yang dipilih.

    Misalnya, jika kubus Anda berisi ukuran yang menghitung biaya pengiriman berdasarkan lokasi geografis pelanggan, dan Anda memilih dimensi Pelanggan sebagai sumber data utama Anda untuk pemodelan, ukuran akan diusulkan sebagai kandidat untuk ditambahkan ke model. Waspadai penambahan terlalu banyak ukuran yang sudah secara langsung berdasarkan atribut, karena sudah ada satu hubungan implisit antara kolom, seperti yang didefinisikan dalam rumus pengukuran, dan kekuatan korelasi ini (diharapkan) dapat mengaburkan hubungan lain yang mungkin Anda temukan.

  6. Tentukan Penggunaan Kolom Model Penambangan: Untuk setiap atribut atau ukuran yang Anda tambahkan ke struktur, Anda harus menentukan apakah atribut harus digunakan untuk prediksi, atau digunakan sebagai input. Jika Anda tidak memilih salah satu opsi ini, data akan diproses tetapi tidak akan digunakan untuk analisis; namun, itu akan tersedia sebagai data latar belakang jika Anda nantinya mengaktifkan penelusuran.

  7. Menambahkan tabel berlapis: Klik untuk menambahkan tabel terkait. Dalam kotak dialog Pilih Dimensi Grup Pengukuran , Anda bisa memilih satu dimensi dari antara dimensi yang terkait dengan dimensi saat ini.

    Selanjutnya, Anda menggunakan kotak dialog Pilih Kunci Tabel Berlapis untuk menentukan bagaimana dimensi baru terkait dengan dimensi yang berisi data kasus.

    Gunakan kotak dialog Pilih Kolom Tabel Berlapis untuk memilih atribut dan pengukuran dari dimensi baru yang ingin Anda gunakan dalam analisis. Anda juga harus menentukan apakah atribut berlapis akan digunakan untuk prediksi.

    Setelah Anda menambahkan semua atribut berlapis yang mungkin Anda butuhkan, kembali ke halaman, Tentukan Penggunaan Kolom Model Penambangan, dan klik Berikutnya.

  8. Tentukan Isi Kolom dan Tipe Data: Pada titik ini, Anda telah menambahkan semua data yang akan digunakan untuk analisis, dan harus menentukan tipe data dan tipe konten untuk setiap atribut.

    Dalam model OLAP, Anda tidak memiliki opsi untuk mendeteksi jenis data secara otomatis, karena jenis data sudah ditentukan oleh solusi multidimensi dan tidak dapat diubah. Kunci juga diidentifikasi secara otomatis. Untuk informasi selengkapnya, lihat Jenis Data (Penggalian Data).

    Jenis konten yang Anda pilih untuk setiap kolom yang Anda gunakan dalam model memberi tahu algoritma bagaimana data harus diproses. Untuk informasi selengkapnya, lihat Jenis Konten (Penggalian Data).

  9. Mengiris kubus sumber: Di sini Anda dapat menentukan filter dalam kubus untuk memilih hanya subset data dan melatih model yang lebih ditargetkan.

    Anda memfilter kubus dengan memilih dimensi untuk difilter, memilih tingkat hierarki yang berisi kriteria yang ingin Anda gunakan, lalu mengetik kondisi yang akan digunakan sebagai filter.

  10. Buat Set Pengujian: Pada halaman ini, Anda dapat memberi tahu wizard berapa banyak data yang harus disisihkan untuk digunakan dalam menguji model. Jika data Anda akan mendukung beberapa model, ada baiknya membuat himpunan data holdout, sehingga semua model dapat diuji pada data yang sama.

    Untuk informasi selengkapnya, lihat Pengujian dan Validasi (Penggalian Data).

  11. Menyelesaikan Wizard: Pada halaman ini, Anda memberikan nama untuk struktur penambangan baru dan model penambangan terkait, dan menyimpan struktur dan model.

    Pada halaman ini, Anda juga bisa mengatur opsi berikut:

    • Perbolehkan penelusuran

    • Membuat dimensi model penambangan

    • Membuat kubus menggunakan dimensi model penambangan

    Untuk mempelajari selengkapnya tentang opsi ini, lihat bagian nanti dalam topik ini, Memahami Dimensi Penggalian Data dan Penelusuran.

Pada titik ini struktur penambangan dan modelnya hanya metadata; Anda harus memproses keduanya untuk mendapatkan hasil.

Skenario Penggunaan Penggalian Data dengan Data OLAP

Kubus OLAP sering berisi begitu banyak anggota dan dimensi sehingga mungkin sulit untuk mengetahui di mana harus memulai dengan penambangan data. Untuk membantu mengidentifikasi pola yang dikandung kubus, biasanya Anda mengidentifikasi satu dimensi yang menarik, lalu mulai menjelajahi pola yang terkait dengan dimensi tersebut. Tabel berikut ini mencantumkan beberapa tugas penggalian data OLAP umum, menjelaskan contoh skenario di mana Anda mungkin menerapkan setiap tugas, dan mengidentifikasi algoritma penggalian data yang akan digunakan untuk setiap tugas.

Tugas Skenario sampel Algoritma
Mengelompokkan anggota ke dalam kluster Segmentasikan dimensi pelanggan berdasarkan properti anggota pelanggan, produk yang dibeli pelanggan, dan jumlah uang yang dibelanjakan pelanggan. Algoritma Pengklusteran Microsoft
Menemukan anggota yang menarik atau abnormal Identifikasi toko yang menarik atau abnormal dalam dimensi toko berdasarkan penjualan, laba, lokasi toko, dan ukuran toko. Algoritma Pohon Keputusan Microsoft
Menemukan sel yang menarik atau abnormal Identifikasi penjualan toko yang bertentangan dengan tren khas dari waktu ke waktu. Algoritma Microsoft Time Series
Menemukan korelasi Identifikasi faktor-faktor yang terkait dengan waktu henti server, termasuk wilayah, jenis mesin, OS, atau tanggal pembelian. Algoritma Microsoft Naïve Bayes

Mengiris Kubus vs. Memfilter Model

Mengiris kubus saat Anda membangun model seperti membuat filter pada model penambangan relasional. Dalam model relasional, filter pada sumber data didefinisikan sebagai klausa WHERE pada pernyataan SQL; dalam kubus, Anda menggunakan editor untuk membuat pernyataan filter menggunakan MDX.

Misalnya, kubus mungkin berisi informasi tentang pembelian produk di seluruh dunia, tetapi untuk kampanye pemasaran Anda, Anda ingin membuat model berdasarkan analisis pelanggan wanita lebih dari 30 yang tinggal di Inggris Raya.

Dalam skenario ini, Anda akan membuat dua filter:

  • Untuk filter pertama, Anda akan memilih dimensi Geografi, memilih hierarki untuk Wilayah, lalu menggunakan daftar Ekspresi Filter untuk memilih "Inggris Raya" dari nilai yang mungkin.

  • Untuk filter kedua, Anda akan memilih dimensi Pelanggan, memilih atribut Gender, dan memilih "Perempuan" dari daftar nilai atribut.

Setelah struktur penambangan dibuat, Anda dapat memodifikasi definisi data kubus dan kriteria filter. Untuk informasi selengkapnya, lihat Filter untuk Model Penambangan.

Tab Struktur Penambangan dan tab Model Penambangan menyediakan opsi untuk menambahkan filter ke struktur penambangan yang ada, dengan mengklik Tentukan Iringan Kubus. Kotak dialog Slice Cube membantu Anda membangun ekspresi filter MDX yang valid dengan memilih nilai dari daftar dropdown.

Peringatan

Perhatikan bahwa antarmuka untuk merancang dan menelusuri kubus telah diubah pada SQL Server 2017. Untuk informasi selengkapnya, lihat Menelusuri data dan metadata di Kubus.

Anda dapat menambahkan filter sebanyak mungkin pada kubus seperti yang diperlukan untuk mengembalikan data yang Anda butuhkan untuk model penambangan. Anda juga dapat menentukan irisan pada irisan kubus individual. Misalnya, jika struktur Anda berisi dua tabel berlapis yang didasarkan pada produk, Anda dapat mengpoting satu tabel pada Maret 2004 dan tabel lainnya pada April 2004. Model yang dihasilkan kemudian dapat digunakan untuk memprediksi pembelian yang dilakukan pada bulan April berdasarkan pembelian yang dilakukan pada bulan Maret.

Menggunakan Tabel Berlapis dalam Model Penambangan OLAP

Saat Anda menggunakan Data Mining Wizard untuk membangun model berdasarkan data kubus, Anda dapat menambahkan tabel berlapis dengan menentukan nama dimensi terkait lalu memilih atribut atau pengukuran untuk ditambahkan ke model

Misalnya, jika dimensi utama yang digunakan untuk data kasus adalah Pelanggan, Anda dapat menambahkan sebagai dimensi terkait dimensi Produk, karena Anda mengharapkan bahwa pelanggan mungkin telah memesan beberapa produk dari waktu ke waktu, dan kubus sudah menautkan setiap pelanggan ke banyak produk melalui tabel fakta pesanan.

Anda menambahkan tabel berlapis di halaman Tentukan Penggunaan Kolom Model Penambangan wizard, dengan mengklik Tambahkan Tabel Berlapis. Kotak dialog terbuka yang memandu Anda melalui proses memilih dimensi terkait, serta langkah-langkah apa pun. Dimensi kasus dan berlapis harus dikaitkan dengan kunci asing, dan tindakan harus menggunakan salah satu atribut yang sudah disertakan dalam tabel kasus atau berlapis. Sayangnya, pembatasan ini benar-benar tidak banyak dilakukan untuk mempersempit cakupan, jadi Anda harus berhati-hati untuk memilih hanya atribut yang berguna untuk pemodelan.

Untuk setiap atribut atau pengukuran yang Anda tambahkan ke tabel berlapis, Anda harus menentukan apakah atribut berlapis akan digunakan untuk prediksi atau tidak, dengan memilih Dapat Diprediksi atau Input dalam kotak dialog Pilih Kolom Tabel Berlapis . Jika Anda tidak memilih salah satu opsi ini, data akan ditambahkan ke struktur penambangan tetapi tidak digunakan untuk analisis.

Untuk setiap atribut dan ukuran, Anda juga harus menentukan apakah atribut diskret, diskret, atau berkelanjutan. Wizard akan memilih default sebelumnya berdasarkan jenis data atribut, tetapi Anda mungkin perlu mengubahnya, tergantung pada persyaratan algoritma. Jika Anda memilih jenis konten yang tidak kompatibel dengan algoritma yang telah Anda pilih (misalnya, Anda menggunakan jenis numerik berkelanjutan dengan model Naïve Bayes), Anda tidak akan mendapatkan pesan kesalahan sampai Anda mencoba memproses model.

Bila Anda selesai mengatur opsi ini, wizard menambahkan tabel berlapis ke tabel kasus. Nama default untuk tabel berlapis adalah nama dimensi berlapis, tetapi Anda dapat mengganti nama tabel berlapis dan kolomnya. Anda dapat mengulangi proses ini untuk menambahkan beberapa tabel berlapis ke struktur penambangan.

Kemampuan untuk menggunakan data tabel berlapis seperti ini adalah fitur penambangan data SQL Server yang sangat kuat, dan dalam kubus, ada kemungkinan yang hampir tidak terbatas untuk menggunakan subset data terkait.

Memahami Dimensi dan Drillthrough Penggalian Data

Opsi, Izinkan penelusuran, memungkinkan Anda menjalankan kueri terhadap data kubus yang mendasarinya saat Anda menelusuri model. Data tidak terkandung dalam dimensi penggalian data baru, tetapi database SQL Server Analysis Services dapat menggunakan pengikatan data untuk mengambil informasi dari kubus sumber.

Opsi , Buat dimensi model penambangan, memungkinkan Anda menghasilkan dimensi baru dalam kubus yang ada yang berisi pola yang ditemukan oleh algoritma. Hierarki dalam dimensi baru sangat ditentukan oleh jenis model. Misalnya, representasi model pengklusteran cukup datar, dengan simpul (Semua) di bagian atas hierarki dan setiap kluster di tingkat berikutnya. Sebaliknya, dimensi yang dibuat untuk model pohon keputusan mungkin memiliki hierarki yang sangat dalam, mewakili percabangan pohon.

Opsi, Buat kubus menggunakan dimensi model penambangan, memungkinkan Anda mengekspor dimensi penggalian data baru ke dalam kubus baru. Objek apa pun yang diperlukan untuk penelusuran pada dimensi penambangan data akan disertakan secara otomatis.

Peringatan

Hanya jenis model ini yang mendukung pembuatan dimensi penambangan data: model berdasarkan algoritma Microsoft Clustering, algoritma Microsoft Decision Trees, atau algoritma Microsoft Association.

Lihat juga

Algoritma Penggalian Data (Analysis Services - Penggalian Data)
Kolom Struktur Penambangan
Kolom Model Penambangan
Properti Model Penambangan
Properti untuk Struktur Pertambangan dan Kolom Struktur