Regresi Logistik Multiklas

Artikel
05/06/2019

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
Mer informasjon tentang Azure Machine Learning.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model klasifikasi regresi logistik multiclass

Kategori: Pembelajaran Mesin / Inisialisasi Model / Klasifikasi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Regresi Logistik Multiclass di Pembelajaran Mesin Studio (klasik), untuk membuat model regresi logistik yang dapat digunakan untuk memprediksi beberapa nilai.

Klasifikasi menggunakan regresi logistik adalah metode pembelajaran yang diawasi, dan karenanya memerlukan himpunan data berlabel. Anda melatih model dengan menyediakan model dan himpunan data berlabel sebagai input ke modul seperti Train Model atau Tune Model Hyperparameters. Model terlatih kemudian dapat digunakan untuk memprediksi nilai untuk contoh input baru.

Pembelajaran Mesin Studio (klasik) juga menyediakan modul Regresi Logistik Dua Kelas, yang cocok untuk klasifikasi variabel biner atau dikotomis.

Selengkapnya tentang regresi logistik multiclass

Regresi logistik adalah metode terkenal dalam statistik yang digunakan untuk memprediksi probabilitas hasil, dan sangat populer untuk tugas klasifikasi. Algoritma tersebut memprediksikan peluang keakuratan dari suatu peristiwa dengan mengepaskan data ke fungsi logistik. Untuk detail tentang implementasi ini, lihat bagian Catatan Teknis .

Dalam regresi logistik multi-kelas, pengklasifikasi dapat digunakan untuk memprediksi beberapa hasil.

Cara mengonfigurasi Regresi Logistik Multiclass

Tambahkan modul Regresi Logistik Multiclass ke eksperimen.
Tentukan bagaimana Anda ingin model dilatih dengan mengatur opsi Buat mode pelatih.
- Parameter Tunggal: Gunakan opsi ini jika Anda tahu bagaimana Anda ingin mengonfigurasi model, dan memberikan set nilai tertentu sebagai argumen.
- Rentang Parameter: Gunakan opsi ini jika Anda tidak yakin dengan parameter terbaik, dan ingin menggunakan sapuan parameter.
Toleransi pengoptimalan, tentukan nilai ambang batas untuk konvergensi pengoptimal. Jika perbaikan antara perulangan kurang dari ambang batas, algoritma akan berhenti dan mengembalikan model saat ini.
Bobot regularisasi L1, Bobot regularisasi L2: Ketikkan nilai yang akan digunakan untuk parameter regularisasi L1 dan L2. Nilai bukan nol direkomendasikan untuk keduanya.

Regularisasi adalah metode untuk mencegah fitting berlebihan dengan membebankan model dengan nilai koefisien ekstrem. Regularisasi bekerja dengan menambahkan penalti yang terkait dengan nilai koefisien ke kesalahan hipotesis. Model yang akurat dengan nilai koefisien ekstrem akan dikenakan sanksi lebih banyak, tetapi model yang kurang akurat dengan nilai yang lebih konservatif akan dikenakan sanksi lebih sedikit.

Regularisasi L1 dan L2 memiliki efek dan kegunaan yang berbeda. L1 dapat diterapkan pada model yang jarang, yang berguna saat bekerja dengan data berdimensi tinggi. Sebaliknya, regularisasi L2 lebih disukai untuk data yang tidak jarang. Algoritma ini mendukung kombinasi linier dari nilai regularisasi L1 dan L2: yaitu, jika x = L1 dan y = L2, ax + by = c mendefinisikan rentang linier dari istilah regularisasi.

Kombinasi linier yang berbeda dari istilah L1 dan L2 telah dirancang untuk model regresi logistik, seperti regularisasi bersih elastis.
Ukuran memori untuk L-BFGS: Tentukan jumlah memori yang akan digunakan untuk pengoptimalan L-BFGS . Parameter ini menunjukkan jumlah posisi dan gradien lama yang akan disimpan untuk perhitungan langkah berikutnya.

L-BFGS adalah singkatan dari limited memory Broyden-Fletcher-Goldfarb-Shanno, dan ini adalah algoritma optimasi yang populer untuk estimasi parameter. Parameter pengoptimalan ini membatasi jumlah memori yang digunakan untuk mengkomputasi langkah dan arah berikutnya. Saat Anda menentukan lebih sedikit memori, pelatihan berjalan lebih cepat tetapi kurang akurat.
Turunan angka acak: Ketik nilai bilangan bulat untuk digunakan sebagai turunan untuk algoritma jika Anda ingin hasilnya dapat diulangi saat dijalankan. Jika tidak, nilai jam sistem digunakan sebagai benih, yang dapat menghasilkan hasil yang sedikit berbeda dalam menjalankan percobaan yang sama.
Izinkan level kategoris yang tidak diketahui: Pilih opsi ini untuk membuat level "tidak diketahui" tambahan di setiap kolom kategoris. Setiap nilai (level) dalam himpunan data pengujian yang tidak ada dalam himpunan data pelatihan dipetakan ke tingkat "tidak diketahui" ini.
Koneksi himpunan data berlabel, dan salah satu modul kereta api:
- Jika Anda mengatur Buat mode pelatih keParameter Tunggal, gunakan modul Model Kereta.
- Jika Anda mengatur Buat mode pelatih ke Rentang Parameter, gunakan modul Tune Model Hyperparameters. Dengan opsi ini, Anda dapat menentukan beberapa nilai, dan pelatih berulang-ulang atas beberapa kombinasi pengaturan untuk menentukan kombinasi nilai yang menghasilkan model terbaik.
Catatan

Jika Anda meneruskan rentang parameter ke Model Kereta Api, ini hanya menggunakan nilai pertama dalam daftar rentang parameter.

Jika Anda meneruskan satu set nilai parameter ke modul Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, ini mengabaikan nilai dan menggunakan nilai default untuk orang yang belajar.

Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa pun, nilai tunggal yang Anda tentukan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.
Jalankan eksperimen.

Hasil

Setelah pelatihan selesai:

Untuk melihat ringkasan parameter model, bersama dengan bobot fitur yang dipelajari dari pelatihan, klik kanan output modul Train Model atau Tune Model Hyperparameters, dan pilih Visualisasikan.

Contoh

Untuk contoh bagaimana algoritme pembelajaran ini digunakan, lihat Galeri AI Azure:

Pengelompokan iris: Membandingkan hasil regresi logistik multiclass dengan pengelompokan K-means.
Deteksi intrusi jaringan: Menggunakan regresi logistik biner untuk menentukan apakah suatu kasus mewakili intrusi.
Validasi Silang untuk Pengklasifikasi Biner: Menunjukkan penggunaan regresi logistik dalam alur kerja eksperimental yang khas, termasuk evaluasi model.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban atas pertanyaan yang sering diajukan.

Ingin mempelajari lebih lanjut tentang regularisasi L1 dan L2? Artikel berikut memberikan diskusi tentang bagaimana regularisasi L1 dan L2 berbeda dan bagaimana mereka mempengaruhi pemasangan model, dengan sampel kode untuk regresi logistik dan model jaringan saraf.

L1 dan L2 Regularization untuk Pembelajaran Mesin

Untuk informasi lebih lanjut tentang implementasi algoritma ini, lihat:

Pelatihan Terukur L-1 Model Log-Linear Teratur, oleh Andrew dan Gao.

Detail implementasi

Regresi logistik memerlukan variabel numerik. Oleh karena itu, ketika Anda mencoba menggunakan kolom kategoris sebagai variabel, Pembelajaran Mesin mengubah nilai menjadi array indikator secara internal.

Untuk tanggal dan waktu, representasi numerik digunakan. Untuk informasi selengkapnya tentang nilai waktu tanggal, lihat .NET Framework Struktur DateTime. Jika Anda ingin menangani tanggal dan waktu secara berbeda, kami sarankan Anda membuat kolom turunan.

Regresi logistik standar bersifat binomial dan mengasumsikan dua kelas output. Regresi logistik multiclass atau multinomial mengasumsikan tiga atau lebih kelas output.

Regresi logistik binomial mengasumsikan distribusi logistik data, di mana probabilitas bahwa contoh milik kelas 1 adalah rumusnya:

p(x;β0,…, βD-1)

Di mana:

x adalah vektor D-dimensional yang berisi nilai-nilai dari semua fitur instance.
p adalah fungsi distribusi logistik.
β{0},..., β {D-1} adalah parameter distribusi logistik yang tidak diketahui.

Algoritma mencoba untuk menemukan nilai optimal untuk β{0},..., β {D-1} dengan memaksimalkan probabilitas log dari parameter yang diberikan input. Maksimalisasi dilakukan dengan menggunakan metode populer untuk estimasi parameter, yang disebut Limited Memory BFGS.

Parameter modul

Nama	Rentang	Jenis	Default	Deskripsi
Toleransi pengoptimalan	>=ganda. Epsilon	Mengambang	0.0000001	Tentukan nilai toleransi untuk pengoptimal L-BFGS
Berat regularisasi L1	>=0,0	Mengambang	1,0	Tentukan berat regularisasi L1. Gunakan nilai non-nol untuk menghindari overfitting.
Berat regularisasi L2	>=0,0	Mengambang	1,0	Tentukan berat regularisasi L2. Gunakan nilai non-nol untuk menghindari overfitting.
Ukuran memori untuk L-BFGS	>=1	Bilangan bulat	20	Tentukan jumlah memori (dalam MB) yang akan digunakan untuk pengoptimal L-BFGS. Ketika lebih sedikit memori yang digunakan, pelatihan lebih cepat, tetapi kurang akurat.
Benih angka acak	Apa pun	Bilangan bulat		Ketik nilai untuk menyemai generator angka acak yang digunakan oleh model. Biarkan kosong untuk default.
Izinkan level kategoris yang tidak diketahui	Apa pun	Boolean	True	Tunjukkan apakah level tambahan harus dibuat untuk setiap kolom kategoris. Setiap level dalam himpunan data pengujian yang tidak tersedia dalam himpunan data pelatihan dipetakan ke tingkat tambahan ini.

Output

Nama	Jenis	Deskripsi
Model tak terlatih	Antarmuka ILearner	Model klasifikasi yang tidak terlatih

Lihat juga

Klasifikasi
Regresi Logistik Dua Kelas
Daftar Modul A-Z

Bagikan melalui

Regresi Logistik Multiklas

Ringkasan Modul

Selengkapnya tentang regresi logistik multiclass

Cara mengonfigurasi Regresi Logistik Multiclass

Hasil

Contoh

Catatan teknis

Detail implementasi

Parameter modul

Output

Lihat juga

Sumber Daya Tambahan:

Bagikan melalui

Regresi Logistik Multiklas

Ringkasan Modul

Selengkapnya tentang regresi logistik multiclass

Cara mengonfigurasi Regresi Logistik Multiclass

Hasil

Contoh

Catatan teknis

Penelitian terkait

Detail implementasi

Parameter modul

Output

Lihat juga

Sumber Daya Tambahan: