Bagikan melalui


Regresi Logistik Multiklas

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model klasifikasi regresi logistik multiclass

Kategori: Pembelajaran Mesin / Inisialisasi Model / Klasifikasi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Regresi Logistik Multiclass di Pembelajaran Mesin Studio (klasik), untuk membuat model regresi logistik yang dapat digunakan untuk memprediksi beberapa nilai.

Klasifikasi menggunakan regresi logistik adalah metode pembelajaran yang diawasi, dan karenanya memerlukan himpunan data berlabel. Anda melatih model dengan menyediakan model dan himpunan data berlabel sebagai input ke modul seperti Train Model atau Tune Model Hyperparameters. Model terlatih kemudian dapat digunakan untuk memprediksi nilai untuk contoh input baru.

Pembelajaran Mesin Studio (klasik) juga menyediakan modul Regresi Logistik Dua Kelas, yang cocok untuk klasifikasi variabel biner atau dikotomis.

Selengkapnya tentang regresi logistik multiclass

Regresi logistik adalah metode terkenal dalam statistik yang digunakan untuk memprediksi probabilitas hasil, dan sangat populer untuk tugas klasifikasi. Algoritma tersebut memprediksikan peluang keakuratan dari suatu peristiwa dengan mengepaskan data ke fungsi logistik. Untuk detail tentang implementasi ini, lihat bagian Catatan Teknis .

Dalam regresi logistik multi-kelas, pengklasifikasi dapat digunakan untuk memprediksi beberapa hasil.

Cara mengonfigurasi Regresi Logistik Multiclass

  1. Tambahkan modul Regresi Logistik Multiclass ke eksperimen.

  2. Tentukan bagaimana Anda ingin model dilatih dengan mengatur opsi Buat mode pelatih.

    • Parameter Tunggal: Gunakan opsi ini jika Anda tahu bagaimana Anda ingin mengonfigurasi model, dan memberikan set nilai tertentu sebagai argumen.

    • Rentang Parameter: Gunakan opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menggunakan sapuan parameter.

  3. Toleransi pengoptimalan, tentukan nilai ambang batas untuk konvergensi pengoptimal. Jika perbaikan antara perulangan kurang dari ambang batas, algoritma akan berhenti dan mengembalikan model saat ini.

  4. Bobot regularisasi L1, Bobot regularisasi L2: Ketikkan nilai yang akan digunakan untuk parameter regularisasi L1 dan L2. Nilai bukan nol direkomendasikan untuk keduanya.

    Regularisasi adalah metode untuk mencegah fitting berlebihan dengan membebankan model dengan nilai koefisien ekstrem. Regularisasi bekerja dengan menambahkan penalti yang terkait dengan nilai koefisien ke kesalahan hipotesis. Model yang akurat dengan nilai koefisien ekstrem akan dikenakan sanksi lebih banyak, tetapi model yang kurang akurat dengan nilai yang lebih konservatif akan dikenakan sanksi lebih sedikit.

    Regularisasi L1 dan L2 memiliki efek dan kegunaan yang berbeda. L1 dapat diterapkan pada model yang jarang, yang berguna saat bekerja dengan data berdimensi tinggi. Sebaliknya, regularisasi L2 lebih disukai untuk data yang tidak jarang. Algoritma ini mendukung kombinasi linier dari nilai regularisasi L1 dan L2: yaitu, jika x = L1 dan y = L2, ax + by = c mendefinisikan rentang linier dari istilah regularisasi.

    Kombinasi linier yang berbeda dari istilah L1 dan L2 telah dirancang untuk model regresi logistik, seperti regularisasi bersih elastis.

  5. Ukuran memori untuk L-BFGS: Tentukan jumlah memori yang akan digunakan untuk pengoptimalan L-BFGS . Parameter ini menunjukkan jumlah posisi dan gradien lama yang akan disimpan untuk perhitungan langkah berikutnya.

    L-BFGS adalah singkatan dari limited memory Broyden-Fletcher-Goldfarb-Shanno, dan ini adalah algoritma optimasi yang populer untuk estimasi parameter. Parameter pengoptimalan ini membatasi jumlah memori yang digunakan untuk mengkomputasi langkah dan arah berikutnya. Saat Anda menentukan lebih sedikit memori, pelatihan berjalan lebih cepat tetapi kurang akurat.

  6. Turunan angka acak: Ketik nilai bilangan bulat untuk digunakan sebagai turunan untuk algoritma jika Anda ingin hasilnya dapat diulangi saat dijalankan. Jika tidak, nilai jam sistem digunakan sebagai benih, yang dapat menghasilkan hasil yang sedikit berbeda dalam menjalankan percobaan yang sama.

  7. Izinkan level kategoris yang tidak diketahui: Pilih opsi ini untuk membuat level "tidak diketahui" tambahan di setiap kolom kategoris. Setiap nilai (level) dalam himpunan data pengujian yang tidak ada dalam himpunan data pelatihan dipetakan ke tingkat "tidak diketahui" ini.

  8. Koneksi himpunan data berlabel, dan salah satu modul kereta api:

    • Jika Anda mengatur Buat mode pelatih keParameter Tunggal, gunakan modul Model Kereta.

    • Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, gunakan modul Tune Model Hyperparameters. Dengan opsi ini, Anda dapat menentukan beberapa nilai, dan pelatih berulang-ulang atas beberapa kombinasi pengaturan untuk menentukan kombinasi nilai yang menghasilkan model terbaik.

    Catatan

    Jika Anda meneruskan rentang parameter ke Model Kereta Api, ini hanya menggunakan nilai pertama dalam daftar rentang parameter.

    Jika Anda meneruskan satu set nilai parameter ke modul Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, ini mengabaikan nilai dan menggunakan nilai default untuk orang yang belajar.

    Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa pun, nilai tunggal yang Anda tentukan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  9. Jalankan eksperimen.

Hasil

Setelah pelatihan selesai:

  • Untuk melihat ringkasan parameter model, bersama dengan bobot fitur yang dipelajari dari pelatihan, klik kanan output modul Train Model atau Tune Model Hyperparameters, dan pilih Visualisasikan.

Contoh

Untuk contoh bagaimana algoritme pembelajaran ini digunakan, lihat Galeri AI Azure:

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Ingin mempelajari lebih lanjut tentang regularisasi L1 dan L2? Artikel berikut memberikan diskusi tentang bagaimana regularisasi L1 dan L2 berbeda dan bagaimana mereka mempengaruhi pemasangan model, dengan sampel kode untuk regresi logistik dan model jaringan saraf.

Untuk informasi lebih lanjut tentang implementasi algoritma ini, lihat:

Detail implementasi

Regresi logistik memerlukan variabel numerik. Oleh karena itu, ketika Anda mencoba menggunakan kolom kategoris sebagai variabel, Pembelajaran Mesin mengubah nilai menjadi array indikator secara internal.

Untuk tanggal dan waktu, representasi numerik digunakan. Untuk informasi selengkapnya tentang nilai waktu tanggal, lihat .NET Framework Struktur DateTime. Jika Anda ingin menangani tanggal dan waktu secara berbeda, kami sarankan Anda membuat kolom turunan.

Regresi logistik standar bersifat binomial dan mengasumsikan dua kelas output. Regresi logistik multiclass atau multinomial mengasumsikan tiga atau lebih kelas output.

Regresi logistik binomial mengasumsikan distribusi logistik data, di mana probabilitas bahwa contoh milik kelas 1 adalah rumusnya:

p(x;β0,…, βD-1)

Di mana:

  • x adalah vektor D-dimensional yang berisi nilai-nilai dari semua fitur instance.

  • p adalah fungsi distribusi logistik.

  • β{0},..., β {D-1} adalah parameter distribusi logistik yang tidak diketahui.

Algoritma mencoba untuk menemukan nilai optimal untuk β{0},..., β {D-1} dengan memaksimalkan probabilitas log dari parameter yang diberikan input. Maksimalisasi dilakukan dengan menggunakan metode populer untuk estimasi parameter, yang disebut Limited Memory BFGS.

Parameter modul

Nama Rentang Jenis Default Deskripsi
Toleransi pengoptimalan >=ganda. Epsilon Mengambang 0.0000001 Tentukan nilai toleransi untuk pengoptimal L-BFGS
Berat regularisasi L1 >=0,0 Mengambang 1,0 Tentukan berat regularisasi L1. Gunakan nilai non-nol untuk menghindari overfitting.
Berat regularisasi L2 >=0,0 Mengambang 1,0 Tentukan berat regularisasi L2. Gunakan nilai non-nol untuk menghindari overfitting.
Ukuran memori untuk L-BFGS >=1 Bilangan bulat 20 Tentukan jumlah memori (dalam MB) yang akan digunakan untuk pengoptimal L-BFGS. Ketika lebih sedikit memori yang digunakan, pelatihan lebih cepat, tetapi kurang akurat.
Benih angka acak Apa pun Bilangan bulat Ketik nilai untuk menyemai generator angka acak yang digunakan oleh model. Biarkan kosong untuk default.
Izinkan level kategoris yang tidak diketahui Apa pun Boolean True Tunjukkan apakah level tambahan harus dibuat untuk setiap kolom kategoris. Setiap level dalam himpunan data pengujian yang tidak tersedia dalam himpunan data pelatihan dipetakan ke tingkat tambahan ini.

Output

Nama Jenis Deskripsi
Model tak terlatih Antarmuka ILearner Model klasifikasi yang tidak terlatih

Lihat juga

Klasifikasi
Regresi Logistik Dua Kelas
Daftar Modul A-Z