Referensi Teknis Algoritma Regresi Linier Microsoft

2023-12-23

Berlaku untuk: SQL Server 2019 dan Analysis Services Azure Analysis Services Fabric/Power BI Premium sebelumnya

Penting

Penambangan data tidak digunakan lagi pada SQL Server 2017 Analysis Services dan sekarang dihentikan di SQL Server 2022 Analysis Services. Dokumentasi tidak diperbarui untuk fitur yang tidak digunakan lagi dan dihentikan. Untuk mempelajari selengkapnya, lihat Kompatibilitas mundur Analysis Services.

Algoritma Microsoft Linear Regression adalah versi khusus dari algoritma Microsoft Decision Trees yang dioptimalkan untuk memodelkan pasangan atribut berkelanjutan. Topik ini menjelaskan implementasi algoritma, menjelaskan cara menyesuaikan perilaku algoritma, dan menyediakan tautan ke informasi tambahan tentang model kueri.

Implementasi Algoritma Regresi Linier

Algoritma Pohon Keputusan Microsoft dapat digunakan untuk banyak tugas: regresi linier, klasifikasi, atau analisis asosiasi. Untuk menerapkan algoritma ini untuk tujuan regresi linier, parameter algoritma dikontrol untuk membatasi pertumbuhan pohon dan menyimpan semua data dalam model dalam satu simpul. Dengan kata lain, meskipun regresi linier didasarkan pada pohon keputusan, pohon hanya berisi satu akar dan tanpa cabang: semua data berada di simpul akar.

Untuk mencapai hal ini, parameter MINIMUM_LEAF_CASES algoritma diatur agar lebih besar dari atau sama dengan jumlah total kasus yang digunakan algoritma untuk melatih model penambangan. Dengan parameter yang diatur dengan cara ini, algoritma tidak akan pernah membuat pemisahan, dan karenanya melakukan regresi linier.

Persamaan yang mewakili garis regresi mengambil bentuk umum y = ax + b, dan dikenal sebagai persamaan regresi. Variabel Y mewakili variabel output, X mewakili variabel input, dan a dan b adalah koefisien yang dapat disesuaikan. Anda dapat mengambil koefisien, intersepsi, dan informasi lain tentang rumus regresi dengan mengkueri model penambangan yang telah selesai. Untuk informasi selengkapnya, lihat Contoh Kueri Model Regresi Linier.

Metode Penilaian dan Pemilihan Fitur

Semua algoritma penggalian data SQL Server Analysis Services secara otomatis menggunakan pemilihan fitur untuk meningkatkan analisis dan mengurangi beban pemrosesan. Metode yang digunakan untuk pemilihan fitur dalam regresi linier adalah skor menarik, karena model hanya mendukung kolom berkelanjutan. Sebagai referensi, tabel berikut menunjukkan perbedaan pilihan fitur untuk algoritma Regresi Linier dan algoritma Pohon Keputusan.

Algoritma	Metode analisis	Komentar
Regresi Linear	Skor kearifan	Default. Metode pemilihan fitur lain yang tersedia dengan algoritma Pohon Keputusan hanya berlaku untuk variabel diskrit dan oleh karena itu tidak berlaku untuk model regresi linier.
Pohon Keputusan	Skor kearifan Entropi Shannon Bayesian dengan K2 Prior Bayesian Dirichlet dengan seragam sebelumnya (default)	Jika ada kolom yang berisi nilai berkelanjutan non-biner, skor ketertarikan digunakan untuk semua kolom, untuk memastikan konsistensi. Jika tidak, metode default atau yang ditentukan digunakan.

Parameter algoritma yang mengontrol pemilihan fitur untuk model pohon keputusan MAXIMUM_INPUT_ATTRIBUTES dan MAXIMUM_OUTPUT.

Menyesuaikan Algoritma Regresi Linier

Algoritma Microsoft Linear Regression mendukung parameter yang memengaruhi perilaku, performa, dan akurasi model penambangan yang dihasilkan. Anda juga dapat mengatur bendera pemodelan pada kolom model penambangan atau kolom struktur penambangan untuk mengontrol cara data diproses.

Mengatur Parameter Algoritma

Tabel berikut mencantumkan parameter yang disediakan untuk algoritma Regresi Linier Microsoft.

Parameter	Deskripsi
MAXIMUM_INPUT_ATTRIBUTES	Menentukan jumlah atribut input yang dapat ditangani algoritma sebelum memanggil pemilihan fitur. Atur nilai ini ke 0 untuk menonaktifkan pilihan fitur. Defaultnya adalah 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Menentukan jumlah atribut output yang dapat ditangani algoritma sebelum memanggil pemilihan fitur. Atur nilai ini ke 0 untuk menonaktifkan pilihan fitur. Defaultnya adalah 255.
FORCE_REGRESSOR	Memaksa algoritma untuk menggunakan kolom yang ditunjukkan sebagai regresi, terlepas dari pentingnya kolom sebagaimana dihitung oleh algoritma.

Bendera Pemodelan

Algoritma Regresi Linier Microsoft mendukung bendera pemodelan berikut. Saat Anda membuat struktur penambangan atau model penambangan, Anda menentukan bendera pemodelan untuk menentukan bagaimana nilai di setiap kolom ditangani selama analisis. Untuk informasi selengkapnya, lihat Bendera Pemodelan (Penggalian Data).

Bendera Pemodelan	Deskripsi
NOT_NULL	Menunjukkan bahwa kolom tidak boleh berisi null. Kesalahan akan mengakibatkan jika Analysis Services mengalami null selama pelatihan model. Berlaku untuk kolom struktur penambangan.
REGRESSOR	Menunjukkan bahwa kolom berisi nilai numerik berkelanjutan yang harus diperlakukan sebagai variabel independen potensial selama analisis. Berlaku untuk kolom model penambangan. Catatan: Menandai kolom sebagai regresor tidak memastikan bahwa kolom akan digunakan sebagai regresor dalam model akhir.

Regresi dalam Model Regresi Linier

Model regresi linier didasarkan pada algoritma Pohon Keputusan Microsoft. Namun, bahkan jika Anda tidak menggunakan algoritma Regresi Linier Microsoft, model pohon keputusan apa pun dapat berisi pohon atau simpul yang mewakili regresi pada atribut berkelanjutan.

Anda tidak perlu menentukan bahwa kolom berkelanjutan mewakili regresor. Algoritma Microsoft Decision Trees akan mempartisi himpunan data ke wilayah dengan pola yang bermakna bahkan jika Anda tidak mengatur bendera REGRESSOR pada kolom. Perbedaannya adalah bahwa ketika Anda mengatur bendera pemodelan, algoritma akan mencoba menemukan persamaan regresi formulir a*C1 + b*C2 + ... agar sesuai dengan pola dalam simpul pohon. Jumlah residu dihitung, dan jika penyimpangan terlalu besar, pemisahan dipaksa di pohon.

Misalnya, jika Anda memprediksi perilaku pembelian pelanggan menggunakan pendapatan sebagai atribut, dan mengatur bendera pemodelan REGRESSOR pada kolom [Pendapatan], algoritma akan terlebih dahulu mencoba menyesuaikan nilai dengan menggunakan rumus regresi standar. Jika penyimpangan terlalu besar, rumus regresi ditinggalkan dan pohon akan dibagi pada beberapa atribut lain. Algoritma pohon keputusan kemudian akan mencoba untuk menyesuaikan regresi untuk pendapatan di setiap cabang setelah pemisahan.

Anda dapat menggunakan parameter FORCED_REGRESSOR untuk menjamin bahwa algoritma akan menggunakan regresior tertentu. Parameter ini dapat digunakan dengan Algoritma Microsoft Decision Trees dan Microsoft Linear Regression.

Persyaratan

Model regresi linier harus berisi kolom kunci, kolom input, dan setidaknya satu kolom yang dapat diprediksi.

Kolom Input dan Yang Dapat Diprediksi

Algoritma Regresi Linier Microsoft mendukung kolom input tertentu dan kolom yang dapat diprediksi yang tercantum dalam tabel berikut. Untuk informasi selengkapnya tentang arti jenis konten saat digunakan dalam model penambangan, lihat Jenis Konten (Penggalian Data).

Kolom	Jenis konten
Atribut input	Berkelanjutan, Siklus, Kunci, Tabel, dan Diurutkan
Atribut yang dapat diprediksi	Berkelanjutan, Siklus, dan Diurutkan

Catatan

Jenis konten Cyclical dan Ordered didukung, tetapi algoritma memperlakukannya sebagai nilai diskrit dan tidak melakukan pemrosesan khusus.

Lihat juga

Algoritma Regresi Linier Microsoft
Contoh Kueri Model Regresi Linier
Menambang Konten Model untuk Model Regresi Linier (Analysis Services - Penggalian Data)