Referensi Teknis Algoritma Microsoft Naive Bayes

Artikel
12/23/2023

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Algoritma Microsoft Naive Bayes adalah algoritma klasifikasi yang disediakan oleh Microsoft SQL Server SQL Server Analysis Services untuk digunakan dalam pemodelan prediktif. Algoritma menghitung probabilitas kondisional antara kolom input dan yang dapat diprediksi, dan mengasumsikan bahwa kolom independen. Asumsi kemerdekaan ini mengarah pada nama Naive Bayes.

Implementasi Algoritma Microsoft Naive Bayes

Algoritma ini kurang intens secara komputasi daripada algoritma Microsoft lainnya, dan oleh karena itu berguna untuk menghasilkan model penambangan dengan cepat untuk menemukan hubungan antara kolom input dan kolom yang dapat diprediksi. Algoritma mempertimbangkan setiap pasangan nilai atribut input dan nilai atribut output.

Deskripsi sifat matematika Bayes Theorem berada di luar cakupan dokumentasi ini; untuk informasi selengkapnya, lihat makalah oleh Microsoft Research berjudul Learning Bayesian Networks: The Kombinasi Pengetahuan dan Data Statistik.

Untuk deskripsi tentang bagaimana probabilitas di semua model disesuaikan untuk mempertanyakan potensi nilai yang hilang, lihat Nilai yang Hilang (Analysis Services - Penggalian Data).

Pemilihan Fitur

Algoritma Microsoft Naive Bayes melakukan pemilihan fitur otomatis untuk membatasi jumlah nilai yang dipertimbangkan saat membangun model. Untuk informasi selengkapnya, lihat Pemilihan Fitur (Penggalian Data).

Algoritma	Metode analisis	Komentar
Naive Bayes	Entropi Shannon Bayesian dengan K2 Prior Bayesian Dirichlet dengan seragam sebelumnya (default)	Naive Bayes hanya menerima atribut diskret atau diskret; oleh karena itu, ia tidak dapat menggunakan skor keterarikan.

Algoritma dirancang untuk meminimalkan waktu pemrosesan dan secara efisien memilih atribut yang memiliki kepentingan terbesar; namun, Anda dapat mengontrol data yang digunakan oleh algoritma dengan mengatur parameter sebagai berikut:

Untuk membatasi nilai yang digunakan sebagai input, kurangi nilai MAXIMUM_INPUT_ATTRIBUTES.
Untuk membatasi jumlah atribut yang dianalisis oleh model, kurangi nilai MAXIMUM_OUTPUT_ATTRIBUTES.
Untuk membatasi jumlah nilai yang dapat dipertimbangkan untuk satu atribut, kurangi nilai MINIMUM_STATES.

Menyesuaikan Algoritma Naive Bayes

Algoritma Microsoft Naive Bayes mendukung beberapa parameter yang memengaruhi perilaku, performa, dan akurasi model penambangan yang dihasilkan. Anda juga dapat mengatur bendera pemodelan pada kolom model untuk mengontrol bagaimana data diproses, atau mengatur bendera pada struktur penambangan untuk menentukan bagaimana nilai yang hilang atau null harus ditangani.

Mengatur Parameter Algoritma

Algoritma Microsoft Naive Bayes mendukung beberapa parameter yang memengaruhi performa dan akurasi model penambangan yang dihasilkan. Tabel berikut ini menjelaskan setiap parameter.

MAXIMUM_INPUT_ATTRIBUTES
Menentukan jumlah maksimum atribut input yang dapat ditangani algoritma sebelum memanggil pemilihan fitur. Mengatur nilai ini ke 0 menonaktifkan pilihan fitur untuk atribut input.

Defaultnya adalah 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Menentukan jumlah maksimum atribut output yang dapat ditangani algoritma sebelum memanggil pemilihan fitur. Mengatur nilai ini ke 0 menonaktifkan pilihan fitur untuk atribut output.

Defaultnya adalah 255.

MINIMUM_DEPENDENCY_PROBABILITY
Menentukan probabilitas dependensi minimum antara atribut input dan output. Nilai ini digunakan untuk membatasi ukuran konten yang dihasilkan oleh algoritma. Properti ini dapat diatur dari 0 hingga 1. Nilai yang lebih besar mengurangi jumlah atribut dalam konten model.

Defaultnya adalah 0,5.

MAXIMUM_STATES
Menentukan jumlah maksimum status atribut yang didukung algoritma. Jika jumlah status yang dimiliki atribut lebih besar dari jumlah maksimum status, algoritma menggunakan status atribut yang paling populer dan memperlakukan status yang tersisa sebagai hilang.

Nilai defaultnya adalah 100.

Bendera Pemodelan

Algoritma Microsoft Decision Trees mendukung bendera pemodelan berikut. Saat Anda membuat struktur penambangan atau model penambangan, Anda menentukan bendera pemodelan untuk menentukan bagaimana nilai di setiap kolom ditangani selama analisis. Untuk informasi selengkapnya, lihat Bendera Pemodelan (Penggalian Data).

Bendera Pemodelan	Deskripsi
MODEL_EXISTENCE_ONLY	Berarti bahwa kolom akan diperlakukan sebagai memiliki dua kemungkinan status: Hilang dan Sudah Ada. Null adalah nilai yang hilang. Berlaku untuk kolom model penambangan.
NOT_NULL	Menunjukkan bahwa kolom tidak boleh berisi null. Kesalahan akan mengakibatkan jika Analysis Services mengalami null selama pelatihan model. Berlaku untuk kolom struktur penambangan.

Persyaratan

Model pohon Naive Bayes harus berisi kolom kunci, setidaknya satu atribut yang dapat diprediksi, dan setidaknya satu atribut input. Tidak ada atribut yang dapat berkelanjutan; jika data Anda berisi data numerik berkelanjutan, data tersebut akan diabaikan atau didiskretisasi.

Kolom Input dan Yang Dapat Diprediksi

Algoritma Microsoft Naive Bayes mendukung kolom input tertentu dan kolom yang dapat diprediksi yang tercantum dalam tabel berikut. Untuk informasi selengkapnya tentang arti jenis konten saat digunakan dalam model penambangan, lihat Jenis Konten (Penggalian Data).

Kolom	Jenis konten
Atribut input	Siklus, Diskret, Diskret, Kunci, Tabel, dan Diurutkan
Atribut yang dapat diprediksi	Siklus, Diskret, Diskret, Tabel, dan Diurutkan

Catatan

Jenis konten Cyclical dan Ordered didukung, tetapi algoritma memperlakukannya sebagai nilai diskrit dan tidak melakukan pemrosesan khusus.

Lihat juga

Algoritma Microsoft Naive Bayes
Contoh Kueri Model Naive Bayes
Menambang Konten Model untuk Naive Bayes Models (Analysis Services - Data Mining)

Bagikan melalui