Bagikan melalui


Metode Diskretisasi (Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi di SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Beberapa algoritma yang digunakan untuk membuat model penggalian data di SQL Server SQL Server Analysis Services memerlukan jenis konten tertentu agar berfungsi dengan benar. Misalnya, algoritma Microsoft Naive Bayes tidak dapat menggunakan kolom berkelanjutan sebagai input dan tidak dapat memprediksi nilai berkelanjutan. Selain itu, beberapa kolom mungkin berisi begitu banyak nilai sehingga algoritma tidak dapat dengan mudah mengidentifikasi pola menarik dalam data untuk membuat model.

Dalam kasus ini, Anda dapat membedakan data dalam kolom untuk memungkinkan penggunaan algoritma untuk menghasilkan model penambangan. Diskretisasi adalah proses menempatkan nilai ke dalam wadah sehingga ada sejumlah status yang mungkin. Wadah itu sendiri diperlakukan sebagai nilai yang diurutkan dan diskrit. Anda dapat membedakan kolom numerik dan string.

Ada beberapa metode yang dapat Anda gunakan untuk membedakan data. Jika solusi penggalian data Anda menggunakan data relasional, Anda dapat mengontrol jumlah wadah yang akan digunakan untuk mengelompokkan data dengan mengatur nilai DiscretizationBucketCount properti . Jumlah default wadah adalah 5.

Jika solusi penggalian data Anda menggunakan data dari kubus Pemrosesan Analitik Online (OLAP), algoritma penggalian data secara otomatis menghitung jumlah wadah untuk dihasilkan dengan menggunakan persamaan berikut, di mana n adalah jumlah nilai data yang berbeda dalam kolom:

Number of Buckets = sqrt(n)

Jika Anda tidak ingin SQL Server Analysis Services menghitung jumlah wadah, Anda bisa menggunakan DiscretizationBucketCount properti untuk menentukan jumlah wadah secara manual.

Tabel berikut ini menjelaskan metode yang bisa Anda gunakan untuk membedakan data dalam SQL Server Analysis Services.

Metode diskretisasi Deskripsi
OTOMATIS SQL Server Analysis Services menentukan metode diskretisasi mana yang akan digunakan.
CLUSTER Algoritma membagi data menjadi beberapa grup dengan mengambil sampel data pelatihan, menginisialisasi ke sejumlah titik acak, lalu menjalankan beberapa iterasi algoritma Pengklusteran Microsoft menggunakan metode pengklusteran Maximization Ekspektasi (EM). Metode CLUSTERS berguna karena berfungsi pada kurva distribusi apa pun. Namun, ini membutuhkan lebih banyak waktu pemrosesan daripada metode diskretisasi lainnya.

Metode ini hanya dapat digunakan dengan kolom numerik.
EQUAL_AREAS Algoritma membagi data menjadi grup yang berisi jumlah nilai yang sama. Metode ini paling baik digunakan untuk kurva distribusi normal, tetapi tidak berfungsi dengan baik jika distribusi menyertakan sejumlah besar nilai yang terjadi dalam grup sempit dalam data berkelanjutan. Misalnya, jika satu setengah item memiliki biaya 0, satu setengah data akan terjadi di bawah satu titik dalam kurva. Dalam distribusi seperti itu, metode ini memecah data dalam upaya untuk menetapkan diskretisasi yang sama ke beberapa area. Ini menghasilkan representasi data yang tidak akurat.

Keterangan

  • Anda dapat menggunakan metode EQUAL_AREAS untuk membedakan string.

  • Metode CLUSTERS menggunakan sampel acak 1000 rekaman untuk membedakan data. Gunakan metode EQUAL_AREAS jika Anda tidak ingin algoritma mengambil sampel data.

Lihat juga

Tipe Isi (Penggalian Data)
Jenis Konten (DMX)
Algoritma Penggalian Data (Analysis Services - Penggalian Data)
Struktur Penambangan (Analysis Services - Penggalian Data)
Jenis Data (Penggalian Data)
Kolom Struktur Penambangan
Distribusi Kolom (Penggalian Data)