Regresi Linear

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
Mer informasjon tentang Azure Machine Learning.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model regresi linier

Kategori: Pembelajaran Mesin / Inisialisasi Model / Regresi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Regresi Linier di Pembelajaran Mesin Studio (klasik), untuk membuat model regresi linier untuk digunakan dalam percobaan. Regresi linier mencoba untuk membangun hubungan linier antara satu atau beberapa variabel independen dan hasil numerik, atau variabel dependen.

Anda menggunakan modul ini untuk menentukan metode regresi linier, lalu melatih model menggunakan himpunan data berlabel. Model terlatih kemudian dapat digunakan untuk membuat prediksi. Atau, model yang tidak terlatih dapat diteruskan ke Cross-Validate Model untuk validasi silang terhadap kumpulan data berlabel.

Selengkapnya tentang regresi linier

Regresi linier adalah metode statistik umum, yang telah diadopsi dalam pembelajaran mesin dan ditingkatkan dengan banyak metode baru untuk menyesuaikan garis dan mengukur kesalahan. Dalam arti yang paling dasar, regresi mengacu pada prediksi target numerik. Regresi linier masih merupakan pilihan yang baik ketika Anda menginginkan model yang sangat sederhana untuk tugas prediktif dasar. Regresi linier juga cenderung bekerja dengan baik pada himpunan data yang ringan, berdimensi tinggi, dan kurang kompleksitas.

Pembelajaran Mesin Studio (klasik) mendukung berbagai model regresi, selain regresi linier. Namun, istilah "regresi" dapat ditafsirkan secara longgar, dan beberapa jenis regresi yang disediakan dalam alat lain tidak didukung di Studio (klasik).

Masalah regresi klasik melibatkan variabel independen tunggal dan variabel dependen. Ini disebut regresi sederhana. Modul ini mendukung regresi sederhana.
Beberapa regresi linier melibatkan dua variabel independen atau lebih yang berkontribusi pada variabel dependen tunggal. Masalah di mana beberapa input digunakan untuk memprediksi hasil numerik tunggal juga disebut regresi linier multivariat.

Modul Regresi Linier dapat memecahkan masalah ini, seperti halnya sebagian besar modul regresi lainnya di Studio (klasik).
Regresi multi-label adalah tugas memprediksi beberapa variabel dependen dalam satu model. Misalnya, dalam regresi logistik multi-label, satu sampel dapat ditetapkan ke beberapa label yang berbeda. (Ini berbeda dari tugas memprediksi beberapa tingkat dalam variabel kelas tunggal.)

Jenis regresi ini tidak didukung dalam Pembelajaran Mesin. Untuk memprediksi beberapa variabel, buat pelajar terpisah untuk setiap output yang ingin Anda prediksi.

Setelah bertahun-tahun, ahli statistik telah mengembangkan metode yang semakin maju untuk regresi. Ini berlaku bahkan untuk regresi linier. Modul ini mendukung dua metode untuk mengukur kesalahan dan menyesuaikan garis regresi: metode kuadrat terkecil biasa, dan penurunan gradien.

Penurunan gradien adalah metode yang meminimalkan jumlah kesalahan pada setiap langkah proses pelatihan model. Ada banyak variasi pada penurunan gradien dan optimalisasinya untuk berbagai masalah pembelajaran telah dipelajari secara luas. Jika Anda memilih opsi ini untuk Metode solusi, Anda dapat mengatur berbagai parameter untuk mengontrol ukuran langkah, tingkat pembelajaran, dan sebagainya. Opsi ini juga mendukung penggunaan sapuan parameter terintegrasi.
Kuadrat terkecil biasa adalah salah satu teknik yang paling umum digunakan dalam regresi linier. Misalnya, kuadrat terkecil adalah metode yang digunakan dalam Analysis Toolpak untuk Microsoft Excel.

Kuadrat terkecil biasa mengacu pada fungsi kerugian, yang menghitung kesalahan sebagai jumlah kuadrat jarak dari nilai aktual ke garis yang diprediksi, dan sesuai dengan model dengan meminimalkan kesalahan kuadrat. Metode ini mengasumsikan hubungan linier yang kuat antara input dan variabel dependen.

Cara mengkonfigurasi Regresi Linier

Modul ini mendukung dua metode untuk memasang model regresi, dengan opsi yang sangat berbeda:

Membuat model regresi menggunakan turunan gradien online

Penurunan gradien adalah fungsi kerugian yang lebih baik untuk model yang lebih kompleks, atau yang memiliki terlalu sedikit data pelatihan mempertimbangkan jumlah variabel.

Opsi ini juga mendukung sapuan parameter, jika Anda melatih model menggunakan Tune Model Hyperparameters untuk mengoptimalkan parameter model secara otomatis.
Menyesuaikan model regresi menggunakan kuadrat terkecil biasa

Untuk himpunan data kecil, sebaiknya pilih kuadrat terkecil biasa. Ini harus memberikan hasil yang sangat mirip dengan Excel.

Membuat model regresi menggunakan kuadrat terkecil biasa

Tambahkan modul Model Regresi Linier ke eksperimen Anda di Studio (klasik).

Anda dapat menemukan modul ini di kategori Pembelajaran Mesin. Perluas Model Inisialisasi, perluas Regresi, lalu seret modul Model Regresi Linier ke eksperimen Anda.
Di panel Properti, di daftar dropdown Metode solusi, pilih Kuadrat Terkecil Biasa. Opsi ini menentukan metode komputasi yang digunakan untuk menemukan garis regresi.
Dalam bobot regularisasi L2, ketikkan nilai yang akan digunakan sebagai bobot untuk regularisasi L2. Sebaiknya gunakan nilai bukan nol untuk menghindari overfitting.

Untuk mempelajari selengkapnya bagaimana regularisasi mempengaruhi penyesuaian model, lihat artikel ini: Regularisasi L1 dan L2 untuk Pembelajaran Mesin
Pilih opsi, Sertakan istilah intersepsi, jika Anda ingin menampilkan istilah untuk intersepsi.

Batalkan pilihan opsi ini jika Anda tidak perlu meninjau rumus regresi.
Untuk Angka seed acak, Anda dapat secara opsional mengetikkan nilai untuk menambahkan generator angka acak yang digunakan oleh model.

Menggunakan nilai benih berguna jika Anda ingin mempertahankan hasil yang sama di berbagai percobaan yang sama. Jika tidak, opsi default adalah menggunakan nilai dari jam sistem.
Batal pilih opsi, Izinkan level kategoris yang tidak diketahui, jika Anda ingin nilai yang hilang memunculkan kesalahan.

Jika opsi ini dipilih, level tambahan dibuat untuk setiap kolom kategoris. Setiap level dalam himpunan data pengujian yang tidak ada dalam himpunan data pelatihan dipetakan ke tingkat tambahan ini.
Tambahkan modul Train Model ke eksperimen Anda, dan hubungkan himpunan data berlabel.
Jalankan eksperimen.

Hasil untuk model kuadrat terkecil biasa

Setelah pelatihan selesai:

Untuk melihat parameter model, klik kanan output pelatih dan pilih Visualisasikan.
Untuk membuat prediksi, sambungkan model terlatih ke modul Model Skor, bersama dengan himpunan data nilai baru.
Untuk melakukan validasi silang terhadap kumpulan data berlabel, hubungkan model yang tidak dibatasi ke Model Validasi Silang.

Membuat model regresi menggunakan turunan gradien online

Tambahkan modul Model Regresi Linier ke eksperimen Anda di Studio (klasik).

Anda dapat menemukan modul ini di kategori Pembelajaran Mesin. Perluas Model Inisialisasi, perluas Regresi, dan seret modul Model Regresi Linier ke eksperimen Anda
Di panel Properti, di daftar dropdown Metode solusi, pilih Turunan Gradien Online sebagai metode komputasi yang digunakan untuk menemukan garis regresi.
Untuk mode Buat pelatih, tunjukkan apakah Anda ingin melatih model dengan set parameter yang telah ditentukan, atau jika Anda ingin mengoptimalkan model dengan menggunakan sapuan parameter.
- Parameter Tunggal: Jika Anda tahu bagaimana Anda akan mengkonfigurasi jaringan regresi linier, berikan set nilai tertentu sebagai argumen.
- Rentang Parameter: Jika Anda ingin algoritme menemukan parameter terbaik untuk Anda, atur opsi Buat mode pelatih ke Rentang Parameter. Anda kemudian dapat menentukan beberapa nilai untuk algoritma untuk mencoba.
Untuk tingkat Pembelajaran, tentukan tingkat pembelajaran awal untuk pengoptimalan penurunan gradien stochastic.
Untuk Jumlah epoch pelatihan, ketikkan nilai yang menunjukkan berapa kali algoritma harus beriterasi melalui contoh. Untuk himpunan data dengan jumlah contoh yang kecil, jumlah ini harus besar untuk mencapai konvergensi.
Menormalkan fitur: Jika Anda telah menormalkan data numerik yang digunakan untuk melatih model, Anda dapat membatalkan pilihan opsi ini. Secara default, modul menormalkan semua input numerik ke rentang antara 0 dan 1.

Catatan

Ingatlah untuk menerapkan metode normalisasi yang sama ke data baru yang digunakan untuk penskoran.
Dalam bobot regularisasi L2, ketikkan nilai yang akan digunakan sebagai bobot untuk regularisasi L2. Sebaiknya gunakan nilai bukan nol untuk menghindari overfitting.

Untuk mempelajari selengkapnya bagaimana regularisasi mempengaruhi penyesuaian model, lihat artikel ini: Regularisasi L1 dan L2 untuk Pembelajaran Mesin
Pilih opsi, Hipotesis akhir rata-rata, untuk rata-rata hipotesis akhir.

Dalam model regresi, pengujian hipotesis berarti menggunakan beberapa statistik untuk mengevaluasi probabilitas hipotesis nol, yang menyatakan bahwa tidak ada korelasi linier antara variabel dependen dan independen. Dalam banyak masalah regresi, Anda harus menguji hipotesis yang melibatkan lebih dari satu variabel.

Opsi ini diaktifkan secara default, yang berarti algoritma menguji kombinasi parameter di mana dua atau lebih parameter terlibat.
Pilih opsi, Kurangi tingkat pembelajaran, jika Anda ingin tingkat pembelajaran berkurang seiring proses perulangan.
Untuk Angka seed acak, Anda dapat secara opsional mengetikkan nilai untuk menambahkan generator angka acak yang digunakan oleh model. Menggunakan nilai benih berguna jika Anda ingin mempertahankan hasil yang sama di berbagai percobaan yang sama.
Batal pilih opsi, Izinkan level kategoris yang tidak diketahui, jika Anda ingin nilai yang hilang memunculkan kesalahan.

Ketika opsi ini dipilih, level tambahan dibuat untuk setiap kolom kategoris. Setiap level dalam himpunan data pengujian yang tidak ada dalam himpunan data pelatihan dipetakan ke tingkat tambahan ini.
Tambahkan himpunan data berlabel dan salah satu modul pelatihan.

Jika Anda tidak menggunakan sapuan parameter, gunakan modul Model Kereta Api .

Agar algoritme menemukan parameter terbaik untuk Anda, latih model menggunakan Tune Model Hyperparameters.

Catatan

Jika Anda mengonfigurasi model dengan nilai tertentu menggunakan opsi Parameter Tunggal dan kemudian beralih ke opsi Rentang Parameter , model dilatih menggunakan nilai minimum dalam rentang untuk setiap parameter.

Sebaliknya, jika Anda mengonfigurasi pengaturan tertentu saat Membuat model tetapi pilih opsi Rentang Parameter , model dilatih menggunakan nilai default untuk pelajar sebagai rentang nilai untuk menyapu.
Jalankan eksperimen.

Hasil untuk keturunan gradien online

Setelah pelatihan selesai:

Untuk membuat prediksi, sambungkan model terlatih ke modul Model Skor, bersama dengan data input baru.
Untuk melakukan validasi silang terhadap kumpulan data berlabel, hubungkan model yang tidak dibatasi ke Model Validasi Silang.

Contoh

Untuk contoh model regresi, lihat eksperimen sampel ini di Galeri AI Azure:

Bandingkan Regressors: Kontras beberapa jenis model regresi.
Validasi Silang untuk Regresi: Menunjukkan regresi linier menggunakan kotak terkecil biasa.
Analisis sentimen Twitter: Menggunakan beberapa model regresi yang berbeda untuk menghasilkan peringkat yang diprediksi.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban terkait pertanyaan yang sering diajukan.

Tips penggunaan

Banyak alat mendukung penciptaan regresi linier, mulai dari yang sederhana hingga yang kompleks. Misalnya, Anda dapat dengan mudah melakukan regresi linier di Excel, menggunakan Solver Toolpak, atau Anda dapat mengkodekan algoritma regresi Anda sendiri, menggunakan R, Python, atau C #.

Namun, karena regresi linier adalah teknik mapan yang didukung oleh banyak alat yang berbeda, ada banyak interpretasi dan implementasi yang berbeda. Tidak semua jenis model didukung sama oleh semua alat. Ada juga beberapa perbedaan dalam nomenklatur untuk diamati.

Metode regresi sering dikategorikan berdasarkan jumlah variabel respons. Misalnya, regresi linier berganda berarti model yang memiliki beberapa variabel untuk diprediksi.
Di Matlab, regresi multivariat mengacu pada model yang memiliki beberapa variabel respons.
Dalam Pembelajaran Mesin, model regresi mendukung variabel respons tunggal.
Dalam bahasa R, fitur yang disediakan untuk regresi linier tergantung pada paket yang Anda gunakan. Misalnya, paket glm akan memberi Anda kemampuan untuk membuat model regresi logistik dengan beberapa variabel independen. Secara umum, Pembelajaran Mesin Studio (klasik) menyediakan fungsi yang sama dengan paket R glm.

Sebaiknya gunakan modul ini, Regresi Linier, untuk masalah regresi yang khas.

Sebaliknya, jika Anda menggunakan beberapa variabel untuk memprediksi nilai kelas, kami merekomendasikan modul Regresi Logistik Dua Kelas atau Regresi Logistik Multiclass .

Jika Anda ingin menggunakan paket regresi linier lainnya yang tersedia untuk bahasa R, kami sarankan Anda menggunakan modul Execute R Script dan memanggil paket lm atau glm, yang disertakan dalam lingkungan runtime Pembelajaran Mesin Studio (klasik).

Parameter modul

Nama	Rentang	Jenis	Default	Deskripsi
Menormalkan fitur	apa pun	Boolean	TRUE	Menunjukkan apakah instans harus dinormalisasi
Hipotesis akhir rata-rata	apa pun	Boolean	TRUE	Menunjukkan apakah hipotesis akhir harus dirata-ratakan
Tingkat pembelajaran	>=ganda. Epsilon	Mengambang	0.1	Tentukan tingkat pembelajaran awal untuk pengoptimal penurunan gradien stokastik
Jumlah zaman pelatihan	>=0	Bilangan bulat	10	Tentukan berapa kali algoritma harus iterasi melalui contoh. Untuk himpunan data dengan jumlah contoh yang kecil, jumlah ini harus besar untuk mencapai konvergensi.
Menurunkan tingkat pembelajaran	Apa pun	Boolean	TRUE	Tunjukkan apakah tingkat pembelajaran harus menurun seiring kemajuan iterasi
Berat regularisasi L2	>=0,0	Mengambang	0.001	Tentukan berat untuk regularisasi L2. Gunakan nilai non-nol untuk menghindari overfitting.
Benih angka acak	apa pun	Bilangan bulat		Tentukan nilai untuk menyemai generator angka acak yang digunakan oleh model. Biarkan kosong untuk default.
Izinkan level kategoris yang tidak diketahui	apa pun	Boolean	TRUE	Tunjukkan apakah level tambahan harus dibuat untuk setiap kolom kategoris. Setiap level dalam himpunan data pengujian yang tidak tersedia dalam himpunan data pelatihan dipetakan ke tingkat tambahan ini.
Sertakan istilah intersepsi	Apa pun	Boolean	True	Menunjukkan apakah istilah tambahan harus ditambahkan untuk intersepsi

Output

Nama	Jenis	Deskripsi
Model tak terlatih	Antarmuka ILearner	Model regresi yang tidak terlatih

Lihat juga

Regresi

Last updated on 2019-05-06

Bagikan melalui