Bagikan melalui


Regresi Poisson

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat model regresi yang mengasumsikan data memiliki distribusi Poisson

Kategori: Pembelajaran Mesin / Inisialisasi Model / Regresi

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan modul Regresi Poisson di Pembelajaran Mesin Studio (klasik) untuk membuat model regresi Poisson.

Regresi poisson dimaksudkan untuk digunakan dalam model regresi yang digunakan untuk memprediksi nilai numerik, biasanya dihitung. Oleh karena itu, Anda harus menggunakan modul ini untuk membuat model regresi Anda hanya jika nilai yang Anda coba prediksi sesuai dengan kondisi berikut:

  • Variabel respons memiliki distribusi Poisson.

  • Jumlah tidak boleh negatif. Metode ini akan gagal langsung jika Anda mencoba menggunakannya dengan label negatif.

  • Distribusi Poisson adalah distribusi diskrit; oleh karena itu, tidak akan relevan jika menggunakan metode ini bukan dengan bilangan bulat.

Tip

Jika target Anda bukan jumlah, regresi Poisson mungkin bukan metode yang tepat. Cobalah salah satu modul lain dalam kategori ini. Untuk bantuan memilih metode regresi, lihat lembar contekan algoritma Pembelajaran Mesin.

Setelah menyiapkan metode regresi, Anda harus melatih model menggunakan set data yang berisi contoh nilai yang ingin Anda prediksi. Model terlatih kemudian dapat digunakan untuk membuat prediksi.

Informasi lebih lanjut tentang regresi Poisson

Regresi Poisson adalah analisis regresi jenis khusus yang biasanya digunakan untuk membuat model jumlah. Misalnya, regresi Poisson akan berguna dalam skenario ini:

  • Membuat model jumlah kasus demam yang terkait dengan penerbangan pesawat

  • Memperkirakan jumlah panggilan layanan darurat dalam sebuah peristiwa

  • Memproyeksikan jumlah pertanyaan pelanggan setelah ada promosi

  • Membuat tabel kontinjensi

Karena variabel respons memiliki distribusi Poisson, model membuat asumsi yang berbeda tentang data dan distribusi probabilitasnya daripada, misalnya, regresi kuadrat terkecil. Oleh karena itu, model Poisson harus ditafsirkan berbeda dari model regresi lainnya.

Cara mengonfigurasi Poisson Regression

  1. Tambahkan modul Regresi Poisson ke eksperimen Anda di Studio (klasik).

    Anda dapat menemukan modul ini di bawah Pembelajaran Mesin - Inisialisasi, dalam kategori Regresi.

  2. Tambahkan himpunan data yang berisi data pelatihan dengan jenis yang benar.

    Kami menyarankan agar Anda menggunakan Normalisasi Data untuk menormalkan himpunan data input sebelum menggunakannya untuk melatih regresor.

  3. Di panel Properti modul Regresi Poisson , tentukan bagaimana Anda ingin model dilatih, dengan mengatur opsi Buat mode pelatih .

    • Parameter Tunggal: Jika Anda tahu bagaimana Anda ingin mengkonfigurasi model, berikan set nilai tertentu sebagai argumen.

    • Rentang Parameter. Jika Anda tidak yakin dengan parameter terbaik, lakukan penyisiran parameter menggunakan modul Tune Model Hyperparameters . Pelatih melakukan iterasi atas beberapa nilai yang Anda tentukan untuk menemukan konfigurasi optimal.

  4. Toleransi pengoptimalan: Ketik nilai yang menentukan interval toleransi selama pengoptimalan. Semakin rendah nilainya, semakin lambat dan akurat pengukurannya.

  5. Bobot regularisasi L1 dan bobot regularisasi L2: Ketik nilai yang digunakan untuk regularisasi L1 dan L2. Regularisasi menambah batasan pada algoritma mengenai aspek model yang independen dari data pelatihan. Regularisasi umumnya digunakan untuk menghindari overfitting.

    • Regularisasi L1 berguna jika tujuannya adalah memiliki model yang setersebar mungkin.

      Regularisasi L1 dilakukan dengan mengurangi bobot L1 vektor bobot dari ekspresi yang hilang yang coba diminimalkan oleh pembelajar. Norma L1 adalah perkiraan yang baik untuk norma L0, yang merupakan jumlah koordinat non-nol.

    • Regularisasi L2 mencegah koordinat tunggal dalam vektor bobot agar tidak tumbuh terlalu banyak dalam hal ukuran. Regularisasi L2 berguna jika tujuannya adalah memiliki model dengan bobot keseluruhan kecil.

    Dalam modul ini, Anda dapat menerapkan kombinasi regularisasi L1 dan L2. Dengan menggabungkan regularisasi L1 dan L2, Anda dapat menjatuhkan penalti pada besarnya nilai parameter. Pembelajar mencoba meminimalkan penalti, sebagai pertukaran dengan meminimalkan kehilangan.

    Untuk pembahasan yang lebih jelas tentang regularisasi L1 dan L2, lihat Regularisasi L1 dan L2 untuk Pembelajaran Mesin.

  6. Ukuran memori untuk L-BFGS: Tentukan jumlah memori yang dicadangkan untuk pemasangan dan pengoptimalan model.

    L-BFGS adalah metode khusus untuk pengoptimalan, berdasarkan algoritma Broyden–Fletcher–Goldfarb–Shanno (BFGS). Metode ini menggunakan jumlah memori terbatas (L) untuk mengomputasi arah langkah berikutnya.

    Dengan mengubah parameter ini, Anda dapat memengaruhi jumlah posisi dan gradien sebelumnya yang disimpan untuk komputasi langkah berikutnya.

  7. Sambungkan himpunan data pelatihan dan model yang tidak terlatih ke salah satu modul pelatihan:

    Peringatan

    • Jika Anda meneruskan rentang parameter ke Model Kereta Api, ini hanya menggunakan nilai pertama dalam daftar rentang parameter.

    • Jika Anda meneruskan satu set nilai parameter ke modul Tune Model Hyperparameters, saat mengharapkan rentang pengaturan untuk setiap parameter, ini mengabaikan nilai dan menggunakan nilai default untuk orang yang belajar.

    • Jika Anda memilih opsi Rentang Parameter dan memasukkan satu nilai untuk parameter apa pun, nilai tunggal yang Anda tentukan digunakan di seluruh sapuan, bahkan jika parameter lain berubah di berbagai nilai.

  8. Jalankan eksperimen untuk melatih model.

Contoh

Untuk contoh bagaimana regresi Poisson digunakan dalam pembelajaran mesin, lihat Galeri AI Azure.

Catatan teknis

Regresi poisson digunakan untuk memodelkan data hitungan, dengan asumsi bahwa label memiliki distribusi Poisson. Misalnya, Anda dapat menggunakannya untuk memprediksi jumlah panggilan ke pusat dukungan pelanggan pada hari tertentu.

Untuk algoritma ini, diasumsikan bahwa fungsi yang tidak diketahui, dilambangkan Y, memiliki distribusi Poisson. Distribusi Poisson didefinisikan sebagai berikut:

Mengingat instance x = (x0, ..., xd-1), untuk setiap k= 0,1, ..., modul menghitung probabilitas bahwa nilai instans adalah k.

Mengingat serangkaian contoh pelatihan, algoritma mencoba menemukan nilai optimal untuk θ0, ...,θD-1 dengan mencoba memaksimalkan kemungkinan log parameter. Kemungkinan parameter θ0, ...,θD-1 adalah probabilitas bahwa data pelatihan diambil sampelnya dari distribusi dengan parameter ini.

Probabilitas log dapat dilihat sebagai logp(y = yi)

Fungsi prediksi mengeluarkan nilai yang diharapkan dari distribusi Poisson parameterized itu, khususnya: fw, b (x) = E[Y|x] = ewTx+b.

Untuk informasi selengkapnya, lihat entri untuk regresi Poisson di Wikipedia.

Parameter modul

Nama Rentang Jenis Default Deskripsi
Toleransi pengoptimalan >=ganda. Epsilon Mengambang 0.0000001 Tentukan nilai toleransi untuk konvergensi pengoptimalan. Semakin rendah nilainya, semakin lambat dan akurat pengukurannya.
Berat regularisasi L1 >=0,0 Mengambang 1,0 Tentukan berat regularisasi L1. Gunakan nilai non-nol untuk menghindari overfitting model.
Berat regularisasi L2 >=0,0 Mengambang 1,0 Tentukan berat regularisasi L2. Gunakan nilai non-nol untuk menghindari overfitting model.
Ukuran memori untuk L-BFGS >=1 Bilangan bulat 20 Tunjukkan berapa banyak memori (dalam MB) yang akan digunakan untuk pengoptimal L-BFGS. Dengan memori yang lebih sedikit, pelatihan lebih cepat tetapi kurang akurat pelatihan.
Benih angka acak apa pun Bilangan bulat Ketik nilai untuk menyemai generator angka acak yang digunakan oleh model. Biarkan kosong untuk default.
Izinkan level kategoris yang tidak diketahui apa pun Boolean TRUE Tunjukkan apakah level tambahan harus dibuat untuk setiap kolom kategoris. Setiap level dalam himpunan data pengujian yang tidak tersedia dalam himpunan data pelatihan dipetakan ke tingkat tambahan ini.

Output

Nama Jenis Deskripsi
Model tak terlatih Antarmuka ILearner Model regresi yang tidak terlatih

Lihat juga

Regresi
Daftar Modul A-Z