Bagikan melalui


Regresi Logistik Dua Kelas

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model regresi logistik dua kelas

Kategori: Pembelajaran Mesin / Inisialisasi Model / Klasifikasi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Regresi Logistik Dua Kelas di Pembelajaran Mesin Studio (klasik), untuk membuat model regresi logistik yang dapat digunakan untuk memprediksi dua (dan hanya dua) hasil.

Regresi logistik dikenal sebagai teknik statistik yang digunakan untuk memodelkan beberapa jenis masalah. Algoritma ini adalah metode pembelajaran yang diawasi ; oleh karena itu, Anda harus menyediakan dataset yang sudah berisi hasil untuk melatih model.

Selengkapnya tentang regresi logistik

Regresi logistik dikenal sebagai metode dalam statistik yang digunakan untuk memprediksi peluang hasil, dan khususnya populer untuk tugas klasifikasi. Algoritma tersebut memprediksikan peluang keakuratan dari suatu peristiwa dengan mengepaskan data ke fungsi logistik. Untuk detail tentang implementasi ini, lihat bagian Catatan Teknis .

Dalam modul ini, algoritma klasifikasi dioptimalkan untuk variabel dikotomis dan biner. Jika Anda perlu mengklasifikasikan beberapa hasil, gunakan modul Regresi Logistik Multikelas.

Cara mengonfigurasi regresi logistik Two-Class

Untuk melatih model ini, Anda harus menyediakan himpunan data yang berisi kolom label atau kelas. Karena modul ini dimaksudkan untuk masalah dua kelas, kolom label atau kelas harus berisi dua nilai dengan tepat.

Misalnya, kolom label mungkin [Dipilih] dengan kemungkinan nilai "Ya" atau "Tidak". Atau, mungkin berupa [Risiko Kredit], dengan kemungkinan nilai "Tinggi" atau "Rendah".

  1. Tambahkan modul Regresi Logistik Dua Kelas ke eksperimen Anda di Studio (klasik).

  2. Tentukan bagaimana Anda ingin modul ini akan dilatih, dengan mengatur opsi Buat mode pelatih.

    • Satu Parameter: Jika mengetahui bagaimana Anda ingin mengonfigurasikan model, Anda dapat menyediakan kumpulan nilai tertentu sebagai argumen.

    • Rentang Parameter: Jika Anda tidak yakin dengan parameter terbaik, Anda dapat menemukan parameter optimal dengan menentukan beberapa nilai dan menggunakan modul Tune Model Hyperparameters untuk menemukan konfigurasi optimal. Pelatih berulang lebih dari beberapa kombinasi pengaturan dan menentukan kombinasi nilai yang menghasilkan model terbaik.

  3. Untuk Toleransi pengoptimalan, tentukan nilai ambang agar dapat digunakan saat mengoptimalkan model tersebut. Jika peningkatan antara iterasi di bawah ambang yang ditentukan, algoritma dianggap telah konvergen terhadap solusi, dan pelatihan akan diakhiri.

  4. Untuk Bobot regularisasi L1 dan Bobot regularisasi L2, ketikkan nilai yang akan digunakan untuk parameter regularisasi L1 dan L2. Nilai bukan nol direkomendasikan untuk keduanya.

    Regularisasi adalah metode untuk mencegah overfitting dengan menghukum model dengan nilai koefisien yang ekstrem. Regularisasi bekerja dengan menambahkan hukuman yang dikaitkan dengan nilai koefisien terhadap kesalahan hipotesis. Dengan begitu, model yang akurat dengan nilai koefisien ekstrem akan dikenai hukuman lebih, tetapi model yang kurang akurat dengan nilai lebih konservatif akan dikenai hukuman lebih sedikit.

    Regularisasi L1 dan L2 memiliki dampak dan penggunaan yang berbeda.

    • L1 dapat diterapkan pada model yang jarang, yang berguna saat bekerja dengan data berdimensi tinggi.

    • Sebaliknya, regularisasi L2 lebih dipilih untuk data yang tidak jarang.

    Algoritma ini mendukung kombinasi linier dari nilai regularisasi L1 dan L2: yaitu, jika x = L1 dan y = L2, maka ax + by = c menentukan rentang linier dari persyaratan regularisasi.

    Catatan

    Ingin mempelajari lebih lanjut tentang regularisasi L1 dan L2? Artikel berikut memberikan diskusi tentang bagaimana regularisasi L1 dan L2 berbeda dan bagaimana mereka mempengaruhi pemasangan model, dengan sampel kode untuk regresi logistik dan model jaringan saraf: L1 dan L2 Regularization untuk Pembelajaran Mesin

    Kombinasi linier yang berbeda dari istilah L1 dan L2 telah dirancang untuk model regresi logistik: misalnya, regularisasi net elastis. Kami menyarankan agar Anda mereferensikan kombinasi ini untuk menentukan kombinasi linier yang efektif dalam model Anda.

  5. Untuk Ukuran memori untuk L-BFGS, tentukan jumlah memori yang akan digunakan untuk pengoptimalan L-BFGS.

    L-BFGS singkatan dari “limited memory Broyden-Fletcher-Goldfarb-Shanno”. Ini merupakan algoritma pengoptimalan yang populer untuk estimasi parameter. Parameter ini menunjukkan jumlah posisi dan gradien lama yang akan disimpan untuk perhitungan langkah berikutnya.

    Parameter pengoptimalan ini membatasi jumlah memori yang digunakan untuk mengkomputasi langkah dan arah berikutnya. Saat Anda menentukan lebih sedikit memori, pelatihan berjalan lebih cepat tetapi kurang akurat.

  6. Untuk Seed angka acak, ketikkan nilai bilangan bulat. Mendefinisikan nilai benih penting jika Anda ingin hasilnya dapat direproduksi selama beberapa kali percobaan yang sama.

  7. Pilih opsi Izinkan level kategoris yang tidak diketahui untuk membuat level "tidak diketahui" tambahan di setiap kolom kategoris. Jika Anda melakukannya, nilai (level) apa pun dalam himpunan data pengujian yang tidak tersedia dalam himpunan data pelatihan dipetakan ke tingkat "tidak diketahui" ini.

  8. Tambahkan himpunan data yang ditandai ke eksperimen, dan hubungkan salah satu modul pelatihan.

    Catatan

    Jika Anda meneruskan rentang parameter ke Train Model, itu hanya akan menggunakan nilai pertama dalam daftar rentang parameter.

    Jika Anda meneruskan satu set nilai parameter ke modul Tune Model Hyperparameters , ketika mengharapkan berbagai pengaturan untuk setiap parameter, ia mengabaikan nilai dan menggunakan nilai default untuk pelajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa pun, nilai tunggal yang Anda tentukan akan digunakan sepanjang sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  9. Jalankan eksperimen.

Hasil

Setelah pelatihan selesai:

  • Untuk melihat ringkasan parameter model, bersama dengan bobot fitur yang dipelajari dari pelatihan, klik kanan output Train Model atau Tune Model Hyperparameters, dan pilih Visualisasikan.

  • Untuk membuat prediksi terkait data baru, gunakan model yang dilatih dan data baru sebagai input untuk modul Model Skor.

  • Untuk melakukan validasi silang terhadap kumpulan data berlabel, hubungkan data dan model yang tidak dibatasi ke Model Validasi Silang.

Contoh

Untuk contoh bagaimana algoritme pembelajaran ini digunakan, lihat Galeri AI Azure:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban terkait pertanyaan yang sering diajukan.

Tips penggunaan

Regresi logistik memerlukan variabel numerik. Oleh karena itu, ketika Anda menggunakan kolom kategoris sebagai variabel, Pembelajaran Mesin mengubah nilai menjadi array indikator secara internal.

Untuk tanggal dan waktu, representasi numerik digunakan. (Untuk informasi selengkapnya tentang nilai waktu tanggal, lihat Struktur DateTime (.NET Framework) - Keterangan.) Jika Anda ingin menangani tanggal dan waktu secara berbeda, kami sarankan Anda membuat kolom turunan.

Detail implementasi

Regresi logistik mengasumsikan distribusi logistik data, di mana probabilitas bahwa contoh milik kelas 1 adalah rumusnya:

p(x;β0,…, βD-1)

Di mana:

  • x adalah vektor D-dimensi yang berisi nilai-nilai semua fitur instans.

  • p adalah fungsi distribusi logistik.

  • β{0},..., β {D-1} adalah parameter distribusi logistik yang tidak diketahui.

Algoritma mencoba untuk menemukan nilai optimal untuk β{0},..., β {D-1} dengan memaksimalkan probabilitas log dari parameter yang diberikan input. Maksimalisasi dilakukan dengan menggunakan metode populer untuk estimasi parameter, yang disebut Limited Memory BFGS.

Penelitian

Untuk informasi lebih lanjut tentang implementasi algoritme ini, lihat Pelatihan Terukur model Log-Linear L-1 Regularized, oleh Andrew dan Gao.

Parameter modul

Nama Rentang Jenis Default Deskripsi
Toleransi pengoptimalan >=ganda. Epsilon Mengambang 0.0000001 Tentukan nilai toleransi untuk pengoptimal L-BFGS
Berat regularisasi L1 >=0,0 Mengambang 1,0 Tentukan berat regularisasi L1
Berat regularisasi L2 >=0,0 Mengambang 1,0 Tentukan berat regularisasi L2
Ukuran memori untuk L-BFGS >=1 Bilangan bulat 20 Tentukan jumlah memori (dalam MB) yang akan digunakan untuk pengoptimal L-BFGS
Benih angka acak Apa pun Bilangan bulat Ketik nilai untuk menyemai generator angka acak yang digunakan oleh model. Biarkan kosong untuk default.
Izinkan level kategoris yang tidak diketahui Apa pun Boolean True Tunjukkan apakah level tambahan harus dibuat untuk setiap kolom kategoris. Setiap level dalam himpunan data pengujian yang tidak tersedia dalam himpunan data pelatihan dipetakan ke tingkat tambahan ini.

Output

Nama Jenis Deskripsi
Model tak terlatih Antarmuka ILearner Model klasifikasi yang tidak terlatih

Lihat juga

Klasifikasi

Regresi Logistik Multi kelas

Daftar Modul A-Z