Bagikan melalui


Pengujian dan Validasi (Penggalian Data)

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Validasi adalah proses menilai seberapa baik performa model penambangan Anda terhadap data nyata. Penting bagi Anda untuk memvalidasi model penambangan dengan memahami kualitas dan karakteristiknya sebelum Anda menyebarkannya ke lingkungan produksi.

Bagian ini memperkenalkan beberapa konsep dasar yang terkait dengan kualitas model, dan menjelaskan strategi untuk validasi model yang disediakan di Microsoft SQL Server Analysis Services. Untuk gambaran umum tentang bagaimana validasi model cocok dengan proses penambangan data yang lebih besar, lihat Solusi Penggalian Data.

Metode untuk Pengujian dan Validasi Model Penggalian Data

Ada banyak pendekatan untuk menilai kualitas dan karakteristik model penambangan data.

  • Gunakan berbagai ukuran validitas statistik untuk menentukan apakah ada masalah dalam data atau dalam model.

  • Pisahkan data ke dalam set pelatihan dan pengujian untuk menguji akurasi prediksi.

  • Minta pakar bisnis untuk meninjau hasil model penambangan data untuk menentukan apakah pola yang ditemukan memiliki arti dalam skenario bisnis yang ditargetkan

Semua metode ini berguna dalam metodologi penambangan data dan digunakan secara berulang saat Anda membuat, menguji, dan menyempurnakan model untuk menjawab masalah tertentu. Tidak ada satu aturan komprehensif yang dapat memberi tahu Anda kapan model cukup baik, atau ketika Anda memiliki cukup data.

Definisi Kriteria untuk Memvalidasi Model Penggalian Data

Ukuran penambangan data umumnya termasuk dalam kategori akurasi, keandalan, dan kegunaan.

Akurasi adalah ukuran seberapa baik model menghubungkan hasil dengan atribut dalam data yang telah disediakan. Ada berbagai langkah akurasi, tetapi semua langkah akurasi tergantung pada data yang digunakan. Pada kenyataannya, nilai mungkin hilang atau perkiraan, atau data mungkin telah diubah oleh beberapa proses. Terutama dalam fase eksplorasi dan pengembangan, Anda mungkin memutuskan untuk menerima sejumlah kesalahan dalam data, terutama jika data cukup seragam dalam karakteristiknya. Misalnya, model yang memprediksi penjualan untuk toko tertentu berdasarkan penjualan sebelumnya dapat sangat berkorelasi dan sangat akurat, bahkan jika penyimpanan tersebut secara konsisten menggunakan metode akuntansi yang salah. Oleh karena itu, pengukuran akurasi harus diimbangi dengan penilaian keandalan.

Keandalan menilai cara model penambangan data dilakukan pada himpunan data yang berbeda. Model penambangan data dapat diandalkan jika menghasilkan jenis prediksi yang sama atau menemukan jenis pola umum yang sama terlepas dari data pengujian yang disediakan. Misalnya, model yang Anda hasilkan untuk penyimpanan yang menggunakan metode akuntansi yang salah tidak akan digeneralisasi dengan baik ke penyimpanan lain, dan karenanya tidak akan dapat diandalkan.

Kegunaan mencakup berbagai metrik yang memberi tahu Anda apakah model memberikan informasi yang berguna. Misalnya, model penggalian data yang menghubungkan lokasi penyimpanan dengan penjualan mungkin akurat dan dapat diandalkan, tetapi mungkin tidak berguna, karena Anda tidak dapat menggeneralisasi hasil tersebut dengan menambahkan lebih banyak penyimpanan di lokasi yang sama. Selain itu, itu tidak menjawab pertanyaan bisnis mendasar tentang mengapa lokasi tertentu memiliki lebih banyak penjualan. Anda mungkin juga menemukan bahwa model yang tampak berhasil sebenarnya tidak ada artinya, karena didasarkan pada korelasi silang dalam data.

Alat untuk Pengujian dan Validasi Model Penambangan

SQL Server Analysis Services mendukung beberapa pendekatan untuk validasi solusi penambangan data, mendukung semua fase metodologi pengujian penggalian data.

  • Mempartisi data ke dalam set pengujian dan pelatihan.

  • Memfilter model untuk melatih dan menguji kombinasi yang berbeda dari data sumber yang sama.

  • Mengukur lift dan gain. Bagan angkat adalah metode memvisualisasikan peningkatan yang Anda dapatkan dari menggunakan model penambangan data, saat Anda membandingkannya dengan tebakan acak.

  • Melakukan validasi silang himpunan data

  • Menghasilkan matriks klasifikasi. Bagan ini mengurutkan tebakan yang baik dan buruk ke dalam tabel sehingga Anda dapat dengan cepat dan mudah mengukur seberapa akurat model memprediksi nilai target.

  • Membuat plot sebar untuk menilai kecocokan rumus regresi.

  • Membuat bagan laba yang mengaitkan keuntungan atau biaya keuangan dengan penggunaan model penambangan, sehingga Anda dapat menilai nilai rekomendasi.

Metrik ini tidak bertujuan untuk menjawab pertanyaan apakah model penambangan data menjawab pertanyaan bisnis Anda; sebaliknya, metrik ini memberikan pengukuran objektif yang dapat Anda gunakan untuk menilai keandalan data Anda untuk analitik prediktif, dan untuk memandu keputusan Anda apakah akan menggunakan iterasi tertentu pada proses pengembangan.

Topik di bagian ini memberikan gambaran umum tentang setiap metode dan memanding Anda melalui proses mengukur akurasi model yang Anda bangun menggunakan SQL Server Data Mining.

Topik Tautan
Pelajari cara menyiapkan himpunan data pengujian menggunakan wizard atau perintah DMX Himpunan Data Pelatihan dan Pengujian
Pelajari cara menguji distribusi dan kewakilian data dalam struktur penambangan Validasi Silang (Analysis Services - Penggalian Data)
Pelajari tentang jenis bagan akurasi yang disediakan. Bagan Angkat (Analysis Services - Penggalian Data)

Bagan Laba (Analysis Services - Penggalian Data)

Plot Sebar (Analysis Services - Penggalian Data)
Pelajari cara membuat matriks klasifikasi, terkadang disebut matriks kebingungan, untuk menilai jumlah positif benar dan salah dan negatif. Matriks Klasifikasi (Analysis Services - Penggalian Data)

Lihat juga

Alat Penggalian Data
Solusi Penggalian Data
Tugas dan Panduan Pengujian dan Validasi (Penggalian Data)