Bagikan melalui


Struktur Penambangan (Analysis Services - Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Struktur penambangan menentukan data dari mana model penambangan dibangun: ini menentukan tampilan data sumber, jumlah dan jenis kolom, dan partisi opsional ke dalam set pelatihan dan pengujian. Struktur penambangan tunggal dapat mendukung beberapa model penambangan yang berbagi domain yang sama. Diagram berikut mengilustrasikan hubungan struktur penggalian data dengan sumber data, dan model penggalian data konstituennya.

Pemrosesan data: sumber ke struktur untuk

Struktur penambangan dalam diagram didasarkan pada sumber data yang berisi beberapa tabel atau tampilan, yang digabungkan pada bidang CustomerID. Satu tabel berisi informasi tentang pelanggan, seperti wilayah geografis, usia, pendapatan, dan jenis kelamin, sementara tabel berlapis terkait berisi beberapa baris informasi tambahan tentang setiap pelanggan, seperti produk yang telah dibeli pelanggan. Diagram menunjukkan bahwa beberapa model dapat dibangun pada satu struktur penambangan, dan bahwa model dapat menggunakan kolom yang berbeda dari struktur.

Model 1 Menggunakan CustomerID, Pendapatan, Usia, Wilayah, dan memfilter data di Wilayah.

Model 2 Menggunakan CustomerID, Pendapatan, Usia, Wilayah, dan memfilter data tentang Usia.

Model 3 Menggunakan CustomerID, Usia, Jenis Kelamin, dan tabel berlapis, tanpa filter.

Karena model menggunakan kolom yang berbeda untuk input, dan karena dua model juga membatasi data yang digunakan dalam model dengan menerapkan filter, model mungkin memiliki hasil yang sangat berbeda meskipun didasarkan pada data yang sama. Perhatikan bahwa kolom CustomerID diperlukan di semua model karena ini adalah satu-satunya kolom yang tersedia yang dapat digunakan sebagai kunci kasus.

Bagian ini menjelaskan arsitektur dasar struktur penggalian data: cara Anda menentukan struktur penambangan, cara Anda mengisinya dengan data, dan cara Anda menggunakannya untuk membuat model. Untuk informasi selengkapnya tentang cara mengelola atau mengekspor struktur penggalian data yang ada, lihat Manajemen Solusi dan Objek Penggalian Data.

Menentukan Struktur Pertambangan

Menyiapkan struktur penggalian data mencakup langkah-langkah berikut:

  • Tentukan sumber data.

  • Pilih kolom data untuk disertakan dalam struktur (tidak semua kolom perlu ditambahkan ke model) dan menentukan kunci.

  • Tentukan kunci untuk struktur, termasuk kunci untuk tabel terbaik, jika berlaku.

  • Tentukan apakah data sumber harus dipisahkan ke dalam set pelatihan dan set pengujian. Langkah ini bersifat opsional.

  • Proses struktur.

Langkah-langkah ini dijelaskan secara lebih rinci di bagian berikut.

Sumber Data untuk Struktur Pertambangan

Saat Anda menentukan struktur penambangan, Anda menggunakan kolom yang tersedia dalam tampilan sumber data yang sudah ada. Tampilan sumber data adalah objek bersama yang memungkinkan Anda menggabungkan beberapa sumber data dan menggunakannya sebagai satu sumber. Sumber data asli tidak terlihat oleh aplikasi klien, dan Anda dapat menggunakan properti tampilan sumber data untuk memodifikasi jenis data, membuat agregasi, atau kolom alias.

Jika Anda membangun beberapa model penambangan dari struktur penambangan yang sama, model dapat menggunakan kolom yang berbeda dari struktur. Misalnya, Anda dapat membuat struktur tunggal lalu membangun pohon keputusan dan model pengklusteran terpisah darinya, dengan setiap model menggunakan kolom yang berbeda dan memprediksi atribut yang berbeda.

Selain itu, setiap model dapat menggunakan kolom dari struktur dengan cara yang berbeda. Misalnya, tampilan sumber data Anda mungkin berisi kolom Pendapatan, yang dapat Anda bin dengan cara yang berbeda untuk model yang berbeda.

Struktur penggalian data menyimpan definisi sumber data dan kolom di dalamnya dalam bentuk pengikatan ke data sumber. Untuk informasi selengkapnya tentang pengikatan sumber data, lihat Sumber data dan Pengikatan (SSAS Multidimensi). Namun, perhatikan bahwa Anda juga dapat membuat struktur penggalian data tanpa mengikatnya ke sumber data tertentu dengan menggunakan pernyataan DMX CREATE MINING STRUCTURE (DMX ).

Kolom Struktur Penambangan

Blok penyusun struktur penambangan adalah kolom struktur penambangan, yang menjelaskan data yang dikandung sumber data. Kolom ini berisi informasi seperti jenis data, jenis konten, dan cara data didistribusikan. Struktur penambangan tidak berisi informasi tentang bagaimana kolom digunakan untuk model penambangan tertentu, atau tentang jenis algoritma yang digunakan untuk membangun model; informasi ini didefinisikan dalam model penambangan itu sendiri.

Struktur penambangan juga dapat berisi tabel berlapis. Tabel berlapis mewakili hubungan satu-ke-banyak antara entitas kasus dan atribut terkaitnya. Misalnya, jika informasi yang menjelaskan pelanggan berada dalam satu tabel, dan pembelian pelanggan berada di tabel lain, Anda dapat menggunakan tabel berlapis untuk menggabungkan informasi ke dalam satu kasus. Pengidentifikasi pelanggan adalah entitas, dan pembelian adalah atribut terkait. Untuk informasi selengkapnya tentang kapan menggunakan tabel berlapis, lihat Tabel Berlapis (Analysis Services - Penggalian Data).

Untuk membuat model penggalian data di SQL Server Data Tools, Anda harus terlebih dahulu membuat struktur penggalian data. Wizard Penggalian Data memanmbing Anda melalui proses pembuatan struktur penambangan, memilih data, dan menambahkan model penambangan.

Jika Anda membuat model penambangan dengan menggunakan Ekstensi Penggalian Data (DMX), Anda dapat menentukan model dan kolom di dalamnya, dan DMX akan secara otomatis membuat struktur penambangan yang diperlukan. Untuk informasi selengkapnya, lihat CREATE MINING MODEL (DMX).

Untuk informasi selengkapnya, lihat Kolom Struktur Penambangan.

Memba lagi Data ke dalam Set Pelatihan dan Pengujian

Saat Anda menentukan data untuk struktur penambangan, Anda juga dapat menentukan bahwa beberapa data digunakan untuk pelatihan, dan beberapa untuk pengujian. Oleh karena itu, tidak perlu lagi memisahkan data Anda sebelum membuat struktur penggalian data. Sebagai gantinya, saat membuat model, Anda dapat menentukan bahwa persentase data tertentu ditahan untuk pengujian, dan sisanya digunakan untuk pelatihan, atau Anda dapat menentukan sejumlah kasus untuk digunakan sebagai himpunan data pengujian. Informasi tentang himpunan data pelatihan dan pengujian di-cache dengan struktur penambangan, dan sebagai hasilnya, set pengujian yang sama dapat digunakan dengan semua model yang didasarkan pada struktur tersebut.

Untuk informasi selengkapnya, lihat Pelatihan dan Pengujian Himpunan Data.

Mengaktifkan Drillthrough

Anda dapat menambahkan kolom ke struktur penambangan meskipun Anda tidak berencana untuk menggunakan kolom dalam model penambangan tertentu. Ini berguna jika, misalnya, Anda ingin mengambil alamat email pelanggan dalam model pengklusteran, tanpa menggunakan alamat email selama proses analisis. Untuk mengabaikan kolom selama fase analisis dan prediksi, Anda menambahkannya ke struktur tetapi tidak menentukan penggunaan untuk kolom, atau mengatur bendera penggunaan ke Abaikan. Data yang ditandai dengan cara ini masih dapat digunakan dalam kueri jika penelusuran telah diaktifkan pada model penambangan, dan jika Anda memiliki izin yang sesuai. Misalnya, Anda dapat meninjau kluster yang dihasilkan dari analisis semua pelanggan, lalu menggunakan kueri penelusuran untuk mendapatkan nama dan alamat email pelanggan dalam kluster tertentu, meskipun kolom data tersebut tidak digunakan untuk membangun model.

Untuk informasi selengkapnya, lihat Kueri Penelusuran (Penggalian Data).

Struktur Penambangan Pemrosesan

Struktur penambangan hanyalah kontainer metadata sampai diproses. Saat Anda memproses struktur penambangan, SQL Server Analysis Services membuat cache yang menyimpan statistik tentang data, informasi tentang bagaimana atribut berkelanjutan dipisahkan, dan informasi lain yang kemudian digunakan oleh model penambangan. Model penambangan itu sendiri tidak menyimpan informasi ringkasan ini, tetapi sebaliknya mereferensikan informasi yang di-cache ketika struktur penambangan diproses. Oleh karena itu, Anda tidak perlu memproses ulang struktur setiap kali Anda menambahkan model baru ke struktur yang ada; Anda hanya dapat memproses model.

Anda dapat memilih untuk membuang cache ini setelah diproses, jika cache sangat besar atau Anda ingin menghapus data terperinci. Jika Anda tidak ingin data di-cache, Anda dapat mengubah properti CacheMode dari struktur penambangan menjadi ClearAfterProcessing. Ini akan menghancurkan cache setelah model apa pun diproses. Mengatur properti CacheMode ke ClearAfterProcessing akan menonaktifkan penelusuran dari model penambangan.

Namun, setelah Anda menghancurkan cache, Anda tidak akan dapat menambahkan model baru ke struktur penambangan. Jika Anda menambahkan model penambangan baru ke struktur, atau mengubah properti model yang ada, Anda harus memproses ulang struktur penambangan terlebih dahulu. Untuk informasi selengkapnya, lihat Persyaratan dan Pertimbangan Pemrosesan (Penggalian Data).

Melihat Struktur Penambangan

Anda tidak dapat menggunakan pemirsa untuk menelusuri data dalam struktur penambangan. Namun, dalam SQL Server Data Tools, Anda dapat menggunakan tab Struktur Penambangan dari Designer Penggalian Data untuk melihat kolom struktur dan definisinya. Untuk informasi selengkapnya, lihat Designer Penggalian Data.

Jika Anda ingin meninjau data dalam struktur penambangan, Anda dapat membuat kueri dengan menggunakan Ekstensi Penggalian Data (DMX). Misalnya, pernyataan SELECT * FROM <structure>.CASES mengembalikan semua data dalam struktur penambangan. Untuk mengambil informasi ini, struktur penambangan harus telah diproses, dan hasil pemrosesan harus di-cache.

Pernyataan SELECT * FROM <model>.CASES mengembalikan kolom yang sama, tetapi hanya untuk kasus dalam model tertentu. Untuk informasi selengkapnya, lihat STRUKTUR> SELECT FROM<. MODEL CASES dan SELECT FROM<>. CASES (DMX).

Menggunakan Model Penggalian Data dengan Struktur Penambangan

Model penggalian data menerapkan algoritma model penambangan ke data yang diwakili oleh struktur penambangan. Model penambangan adalah objek milik struktur penambangan tertentu, dan model mewarisi semua nilai properti yang ditentukan oleh struktur penambangan. Model dapat menggunakan semua kolom yang dikandung struktur penambangan atau subset kolom. Anda dapat menambahkan beberapa salinan kolom struktur ke struktur. Anda juga dapat menambahkan beberapa salinan kolom struktur ke model, lalu menetapkan nama atau alias yang berbeda, ke setiap kolom struktur dalam model. Untuk informasi selengkapnya tentang kolom struktur alias, lihat Membuat Alias untuk Kolom Model dan Properti Model Penambangan.

Untuk informasi selengkapnya tentang arsitektur model penggalian data, lihat Model Penambangan (Analysis Services - Data Mining).

Gunakan tautan yang disediakan untuk mempelajari lebih lanjut tentang cara menentukan, mengelola, dan menggunakan struktur penambangan.

Tugas Tautan
Bekerja dengan struktur penambangan relasional Membuat Struktur Penambangan Relasional Baru

Menambahkan Tabel Berlapis ke Struktur Pertambangan
Bekerja dengan struktur penambangan berdasarkan kubus OLAP Membuat Struktur Penambangan OLAP Baru
Bekerja dengan kolom dalam struktur penambangan Menambahkan Kolom ke Struktur Pertambangan

Menghapus Kolom dari Struktur Pertambangan
Mengubah atau mengkueri properti dan data struktur penambangan Mengubah Properti Struktur Pertambangan
Bekerja dengan sumber data yang mendasar dan memperbarui data sumber Edit Tampilan Sumber Data yang digunakan untuk Struktur Penambangan

Memproses Struktur Pertambangan

Lihat juga

Objek Database (Analysis Services - Data Multidmensional)
Model Penambangan (Analysis Services - Penggalian Data)