Menambahkan Model Penambangan ke Struktur (Analysis Services - Penggalian Data)

Artikel
10/31/2023

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Struktur penambangan dimaksudkan untuk mendukung beberapa model penambangan. Oleh karena itu, setelah menyelesaikan wizard, Anda dapat membuka struktur dan menambahkan model penambangan baru. Setiap kali membuat model, Anda dapat menggunakan algoritma yang berbeda, mengubah parameter, atau menerapkan filter untuk menggunakan subset data yang berbeda.

Menambahkan Model Penambangan Baru

Saat Anda menggunakan Panduan Penggalian Data untuk membuat model penambangan baru, secara default Anda harus selalu membuat struktur penambangan terlebih dahulu. Wizard kemudian memberi Anda opsi untuk menambahkan model penambangan awal ke struktur. Namun, Anda tidak perlu segera membuat model. Jika Anda hanya membuat struktur, Anda tidak perlu membuat keputusan tentang kolom mana yang akan digunakan sebagai atribut yang dapat diprediksi, atau cara menggunakan data dalam model tertentu. Sebagai gantinya, Anda hanya menyiapkan struktur data umum yang ingin Anda gunakan di masa mendatang, dan nantinya Anda dapat menggunakan Data Mining Designer untuk menambahkan model penambangan baru yang didasarkan pada struktur.

Catatan

Di DMX, pernyataan CREATE MINING MODEL dimulai dengan model penambangan. Artinya, Anda menentukan pilihan model penambangan Anda, dan SQL Server Analysis Services secara otomatis menghasilkan struktur yang mendasar. Nantinya Anda dapat terus menambahkan model penambangan baru ke struktur tersebut, dengan menggunakan ALTER STRUCTURE... Pernyataan ADD MODEL.

Memilih Algoritma

Saat Anda menambahkan model baru ke struktur yang ada, hal pertama yang harus Anda lakukan adalah memilih algoritma penggalian data untuk digunakan dalam model tersebut. Memilih algoritma penting karena setiap algoritma melakukan jenis analisis yang berbeda dan memiliki persyaratan yang berbeda.

Saat Anda memilih algoritma yang tidak kompatibel dengan data Anda, Anda akan mendapatkan peringatan. Dalam beberapa kasus, Anda mungkin perlu mengabaikan kolom yang tidak dapat diproses oleh algoritma. Dalam kasus lain, algoritma akan secara otomatis membuat penyesuaian untuk Anda. Misalnya, jika struktur Anda berisi data numerik, dan algoritma hanya dapat bekerja dengan nilai diskrit, struktur tersebut akan mengelompokkan nilai numerik ke dalam rentang diskrit untuk Anda. Dalam beberapa kasus, Anda mungkin perlu memperbaiki data secara manual terlebih dahulu, dengan memilih kunci atau memilih atribut yang dapat diprediksi.

Anda tidak perlu mengubah algoritma saat membuat model baru. Seringkali Anda bisa mendapatkan hasil yang sangat berbeda dengan menggunakan algoritma yang sama, tetapi memfilter data, atau mengubah parameter seperti metode pengklusteran atau ukuran itemet minimum. Kami menyarankan agar Anda bereksperimen dengan beberapa model untuk melihat parameter mana yang menghasilkan hasil terbaik.

Perhatikan bahwa semua model baru perlu diproses sebelum Anda dapat menggunakannya.

Menentukan Penggunaan Kolom dalam Model Penambangan Baru

Saat Anda menambahkan model penambangan baru ke struktur penambangan yang ada, Anda harus menentukan bagaimana setiap kolom data harus digunakan oleh model. Bergantung pada jenis algoritma yang Anda pilih untuk model, beberapa pilihan ini dapat dibuat secara default. Jika Anda tidak menentukan jenis penggunaan untuk kolom, kolom tidak akan disertakan dalam struktur penambangan. Namun, data di kolom masih dapat tersedia untuk penelusuran, jika model mendukungnya.

Kolom dari struktur penambangan yang digunakan oleh model (jika tidak diatur ke Abaikan) harus berupa kunci, kolom input, kolom yang dapat diprediksi, atau kolom yang dapat diprediksi yang nilainya juga digunakan sebagai input ke model.

Kolom kunci berisi pengidentifikasi unik untuk setiap baris dalam tabel. Beberapa model penambangan, seperti yang didasarkan pada algoritma pengklusteran urutan atau rangkaian waktu, dapat berisi beberapa kolom kunci. Namun, beberapa kunci ini bukan kunci majemuk dalam arti relasional, tetapi sebaliknya harus dipilih sehingga dapat memberikan dukungan untuk rangkaian waktu dan analisis pengklusteran urutan.
Kolom input memberikan informasi dari mana prediksi dibuat. Panduan Penggalian Data menyediakan fitur Sarankan , yang diaktifkan saat Anda memilih kolom yang dapat diprediksi. Jika Anda mengklik tombol ini, wizard akan mengambil sampel nilai yang dapat diprediksi dan menentukan kolom lain mana dalam struktur yang membuat variabel yang baik. Ini akan menolak kolom kunci atau kolom lain dengan banyak nilai unik, dan menyarankan kolom yang tampaknya berkorelasi dengan hasil.

Fitur ini sangat berguna ketika himpunan data berisi lebih banyak kolom daripada yang benar-benar Anda butuhkan untuk membangun model penambangan. Fitur Sarankan menghitung skor numerik, dari 0 hingga 1, yang menjelaskan hubungan antara setiap kolom dalam himpunan data dan kolom yang dapat diprediksi. Berdasarkan skor ini, fitur ini menyarankan kolom untuk digunakan sebagai input untuk model penambangan. Jika Anda menggunakan fitur Sarankan , Anda bisa menggunakan kolom yang disarankan, memodifikasi pilihan agar sesuai dengan kebutuhan Anda, atau mengabaikan saran.
Kolom yang dapat diprediksi berisi informasi yang Anda coba prediksi dalam model penambangan. Anda dapat memilih beberapa kolom sebagai atribut yang dapat diprediksi. Model pengklusteran adalah pengecualian bahwa atribut yang dapat diprediksi bersifat opsional.

Bergantung pada jenis model, kolom yang dapat diprediksi mungkin perlu menjadi jenis data tertentu: misalnya, model regresi linier memerlukan kolom numerik sebagai nilai yang diprediksi; Algoritma Naïve Bayes memerlukan nilai diskrit (dan semua input juga harus diskrit).

Menentukan Isi Kolom

Untuk beberapa kolom, Anda mungkin juga perlu menentukan konten kolom. Dalam SQL Server penggalian data, properti Tipe Konten dari setiap kolom data memberi tahu algoritma bagaimana data harus diproses di kolom tersebut. Misalnya, jika data Anda memiliki kolom Pendapatan, Anda harus menentukan bahwa kolom berisi angka berkelanjutan dengan mengatur jenis konten ke Berkelanjutan. Namun, Anda juga dapat menentukan bahwa angka di kolom Pendapatan dikelompokkan ke dalam wadah dengan mengatur jenis konten ke Diskretisasi dan secara opsional menentukan jumlah wadah yang tepat. Anda dapat membuat model berbeda yang menangani kolom secara berbeda: misalnya, Anda dapat mencoba satu model yang mengelompokkan pelanggan ke dalam tiga grup usia, dan model lain yang mengelompokkan pelanggan ke dalam 10 grup usia.

Lihat juga

Struktur Pertambangan (Analysis Services - Penggalian Data)
Membuat Struktur Penambangan Relasional
Properti Model Penambangan
Kolom Model Penggalian

Bagikan melalui