Algoritma Microsoft Naive Bayes

2023-12-23

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Algoritma Microsoft Naive Bayes adalah algoritma klasifikasi berdasarkan teorema Bayes, dan dapat digunakan untuk pemodelan eksplorasi dan prediktif. Kata naif dalam nama Naïve Bayes berasal dari fakta bahwa algoritma menggunakan teknik Bayesian tetapi tidak memperhitungkan dependensi yang mungkin ada.

Algoritma ini kurang intens secara komputasi daripada algoritma Microsoft lainnya, dan oleh karena itu berguna untuk menghasilkan model penambangan dengan cepat untuk menemukan hubungan antara kolom input dan kolom yang dapat diprediksi. Anda dapat menggunakan algoritma ini untuk melakukan eksplorasi awal data, dan kemudian Anda dapat menerapkan hasilnya untuk membuat model penambangan tambahan dengan algoritma lain yang lebih intens secara komputasi dan lebih akurat.

Contoh

Sebagai strategi promosi yang sedang berlangsung, departemen pemasaran untuk perusahaan Adventure Works Cycle telah memutuskan untuk menargetkan pelanggan potensial dengan mengirimkan penerjemah. Untuk mengurangi biaya, mereka ingin mengirim flier hanya kepada pelanggan yang kemungkinan akan merespons. Perusahaan menyimpan informasi dalam database tentang demografi dan respons terhadap surat sebelumnya. Mereka ingin menggunakan data ini untuk melihat bagaimana demografi seperti usia dan lokasi dapat membantu memprediksi respons terhadap promosi, dengan membandingkan pelanggan potensial dengan pelanggan yang memiliki karakteristik serupa dan yang telah membeli dari perusahaan di masa lalu. Secara khusus, mereka ingin melihat perbedaan antara pelanggan yang membeli sepeda dan pelanggan yang tidak.

Dengan menggunakan algoritma Microsoft Naive Bayes, departemen pemasaran dapat dengan cepat memprediksi hasil untuk profil pelanggan tertentu, dan oleh karena itu dapat menentukan pelanggan mana yang paling mungkin merespons penerangan. Dengan menggunakan Microsoft Naive Bayes Viewer di SQL Server Data Tools, mereka juga dapat secara visual menyelidiki secara khusus kolom input mana yang berkontribusi pada respons positif terhadap flier.

Cara Kerja Algoritma

Algoritma Microsoft Naive Bayes menghitung probabilitas setiap status setiap kolom input, mengingat setiap kemungkinan status kolom yang dapat diprediksi.

Untuk memahami cara kerjanya, gunakan Microsoft Naive Bayes Viewer di SQL Server Data Tools (seperti yang ditunjukkan dalam grafik berikut) untuk menjelajahi secara visual bagaimana algoritma mendistribusikan status.

Distribusi naive bayes negara bagian

Di sini, Microsoft Naive Bayes Viewer mencantumkan setiap kolom input dalam himpunan data, dan memperlihatkan bagaimana status setiap kolom didistribusikan, mengingat setiap status kolom yang dapat diprediksi.

Anda akan menggunakan tampilan model ini untuk mengidentifikasi kolom input yang penting untuk membedakan antara status kolom yang dapat diprediksi.

Misalnya, dalam baris untuk Perjalanan Jarak yang ditunjukkan di sini, distribusi nilai input terlihat berbeda untuk pembeli vs. non-pembeli. Apa yang memberi tahu Anda adalah bahwa input, Perjalanan Jarak = 0-1 mil, adalah prediktor potensial.

Penampil juga menyediakan nilai untuk distribusi, sehingga Anda dapat melihat bahwa bagi pelanggan yang bepergian dari satu hingga dua mil untuk bekerja, kemungkinan mereka membeli sepeda adalah 0,387, dan kemungkinan mereka tidak akan membeli sepeda adalah 0,287. Dalam contoh ini, algoritma menggunakan informasi numerik, berasal dari karakteristik pelanggan (seperti jarak perjalanan), untuk memprediksi apakah pelanggan akan membeli sepeda.

Untuk informasi selengkapnya tentang menggunakan Penampil Microsoft Naive Bayes, lihat Menelusuri Model Menggunakan Penampil Microsoft Naive Bayes.

Data yang Diperlukan untuk Naive Bayes Models

Saat Anda menyiapkan data untuk digunakan dalam melatih model Naive Bayes, Anda harus memahami persyaratan untuk algoritma, termasuk berapa banyak data yang diperlukan, dan bagaimana data digunakan.

Persyaratan untuk model Naive Bayes adalah sebagai berikut:

Kolom kunci tunggal Setiap model harus berisi satu kolom numerik atau teks yang secara unik mengidentifikasi setiap rekaman. Kunci campuran tidak diperbolehkan.
Kolom input Dalam model Naive Bayes, semua kolom harus diskrit, atau nilai harus diikat. Untuk informasi tentang cara membedakan kolom (bin), lihat Metode Diskretisasi (Penggalian Data).
Variabel harus independen. Untuk model Naive Bayes, penting juga untuk memastikan bahwa atribut input independen satu sama lain. Ini sangat penting ketika Anda menggunakan model untuk prediksi. Jika Anda menggunakan dua kolom data yang sudah terkait erat, efeknya adalah mengalikan pengaruh kolom tersebut, yang dapat mengaburkan faktor lain yang memengaruhi hasilnya.

Sebaliknya, kemampuan algoritma untuk mengidentifikasi korelasi di antara variabel berguna ketika Anda menjelajahi model atau himpunan data, untuk mengidentifikasi hubungan di antara input.
Setidaknya satu kolom yang dapat diprediksi Atribut yang dapat diprediksi harus berisi nilai diskret atau diskret.

Nilai kolom yang dapat diprediksi dapat diperlakukan sebagai input. Praktik ini dapat berguna saat Anda menjelajahi himpunan data baru, untuk menemukan hubungan di antara kolom.

Menampilkan Model

Untuk menjelajahi model, Anda dapat menggunakan Microsoft Naive Bayes Viewer. Penampil menunjukkan kepada Anda bagaimana atribut input terkait dengan atribut yang dapat diprediksi. Penampil juga menyediakan profil terperinci dari setiap kluster, daftar atribut yang membedakan setiap kluster dari yang lain, dan karakteristik seluruh himpunan data pelatihan. Untuk informasi selengkapnya, lihat Menelusuri Model Menggunakan Penampil Microsoft Naive Bayes.

Jika Anda ingin mengetahui detail selengkapnya, Anda dapat menelusuri model di Penampil Pohon Konten Generik Microsoft (Penggalian Data). Untuk informasi selengkapnya tentang jenis informasi yang disimpan dalam model, lihat Menambang Konten Model untuk Model Naive Bayes (Analysis Services - Data Mining).

Membuat Prediksi

Setelah model dilatih, hasilnya disimpan sebagai serangkaian pola, yang dapat Anda jelajahi atau gunakan untuk membuat prediksi.

Anda dapat membuat kueri untuk mengembalikan prediksi tentang bagaimana data baru terkait dengan atribut yang dapat diprediksi, atau Anda dapat mengambil statistik yang menjelaskan korelasi yang ditemukan oleh model.

Untuk informasi tentang cara membuat kueri terhadap model penggalian data, lihat Kueri Penggalian Data. Untuk contoh cara menggunakan kueri dengan model Naive Bayes, lihat Contoh Kueri Model Naive Bayes.

Keterangan

Mendukung penggunaan Predictive Model Markup Language (PMML) untuk membuat model penambangan.
Mendukung penelusuran.
Tidak mendukung pembuatan dimensi penambangan data.
Mendukung penggunaan model penambangan OLAP.

Lihat juga

Algoritma Penggalian Data (Analysis Services - Penggalian Data)
Pemilihan Fitur (Penggalian Data)
Contoh Kueri Model Naive Bayes
Menambang Konten Model untuk Naive Bayes Models (Analysis Services - Data Mining)
Referensi Teknis Algoritma Microsoft Naive Bayes