Tutorial 2: Melatih model risiko kredit - Azure Machine Learning Studio (klasik)

BERLAKU UNTUK:Ini adalah tanda centang yang berarti bahwa artikel ini berlaku untuk Studio Azure Machine Learning (klasik).Azure Machine Learning Studio (klasik) Ini adalah X yang berarti bahwa artikel ini tidak berlaku untuk Azure Machine Learning.Azure Machine Learning

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Dalam tutorial ini, Anda melihat proses pengembangan solusi analisis prediktif. Anda mengembangkan model sederhana di Machine Learning Studio (klasik). Kemudian, Anda menyebarkan model sebagai layanan web Azure Machine Learning. Model yang disebarkan ini dapat membuat prediksi menggunakan data baru. Tutorial ini adalah bagian kedua dari seri tutorial tiga bagian.

Misalkan Anda perlu memprediksi risiko kredit seseorang berdasarkan informasi yang mereka berikan pada aplikasi kredit.

Penilaian risiko kredit adalah masalah yang kompleks, tetapi tutorial ini akan sedikit menyederhanakannya. Anda akan menggunakannya sebagai contoh cara membuat solusi analitik prediktif menggunakan Azure Machine Learning Studio (klasik). Anda akan menggunakan Azure Machine Learning Studio (klasik) dan layanan web Azure Machine Learning untuk solusi ini.

Dalam tutorial tiga bagian ini, Anda memulai dengan data risiko kredit yang tersedia untuk umum. Kemudian Anda mengembangkan dan melatih model prediktif. Terakhir, Anda menyebarkan model sebagai layanan web.

Di bagian satu dari tutorial ini, Anda membuat ruang kerja Machine Learning Studio (klasik), mengunggah data, dan membuat eksperimen.

Di bagian tutorial ini Anda:

  • Melatih beberapa model
  • Memberi skor dan mengevaluasi model

Dalam bagian tiga dari tutorial, Anda akan menyebarkan model sebagai layanan web.

Prasyarat

Selesaikan bagian satu dari tutorial ini.

Melatih beberapa model

Salah satu keuntungan menggunakan Azure Machine Learning Studio (klasik) untuk membuat model pembelajaran mesin adalah kemampuan untuk mencoba lebih dari satu jenis model sekaligus dalam satu percobaan dan membandingkan hasilnya. Eksperimen semacam ini membantu Anda menemukan solusi terbaik untuk masalah Anda.

Dalam eksperimen yang kita kembangkan dalam tutorial ini, Anda akan membuat dua jenis model yang berbeda kemudian membandingkan hasil pemberian skor model tersebut untuk memutuskan algoritma mana yang ingin Anda gunakan dalam eksperimen akhir.

Ada berbagai model yang bisa Anda pilih. Untuk melihat model yang tersedia, perluas node Pembelajaran Mesin di palet modul, lalu perluas Inisialisasi Model dan node di bawahnya. Untuk tujuan eksperimen ini, Anda akan memilih modul Mesin Vektor Dukungan Dua Kelas (SVM) dan Pohon Keputusan yang Didorong Dua Kelas.

Anda akan menambahkan modul Pohon Keputusan yang Didorong Dua Kelas dan modul Mesin Vektor Dukungan Dua Kelas dalam eksperimen ini.

Pohon Keputusan Yang Didorong Dua Kelas

Pertama, siapkan model pohon keputusan yang didorong.

  1. Temukan modul Pohon Keputusan yang Didorong Dua Kelas di palet modul dan seret ke kanvas.

  2. Temukan Latih Model, seret ke kanvas, lalu sambungkan output modul Pohon Keputusan yang Didorong Dua Kelas ke port input di sebelah kiri modul Latih Model.

    Modul Pohon Keputusan yang Didorong Dua Kelas menginisialisasi model generik, dan Latih Model menggunakan data pelatihan untuk melatih model.

  3. Sambungkan output kiri modul Jalankan Skrip R kiri ke port input kanan modul Latih Model (dalam tutorial ini Anda menggunakan data yang berasal dari sisi kiri modul Pisahkan Data untuk pelatihan).

    Tip

    Anda tidak memerlukan dua input dan salah satu output modul Jalankan Skrip R untuk eksperimen ini, sehingga Anda dapat membiarkannya tidak terikat.

Bagian eksperimen ini sekarang terlihat seperti ini:

Melatih model

Sekarang Anda perlu memberi tahu modul Latih Model bahwa Anda ingin model memprediksi nilai Risiko Kredit.

  1. Pilih modul Latih Model. Di panel Properti, klik Luncurkan pemilih kolom.

  2. Dalam dialog Pilih kolom tunggal, ketik "risiko kredit" di bidang pencarian di bawah Kolom yang Tersedia, pilih "Risiko kredit" di bawah ini, lalu klik tombol panah kanan ( > ) untuk memindahkan "Risiko kredit" ke Kolom Yang Dipilih.

    Pilih kolom Risiko Kredit untuk modul Latih Model

  3. Klik tanda centang OK.

Mesin Vektor Dukungan Dua Kelas

Selanjutnya, Anda menyiapkan model SVM.

Pertama, sedikit penjelasan tentang SVM. Pohon keputusan yang didorong bekerja dengan baik dengan fitur dari jenis apa pun. Namun, karena modul SVM menghasilkan pengklasifikasi linear, model yang dihasilkannya memiliki kesalahan uji terbaik ketika semua fitur numerik memiliki skala yang sama. Untuk mengonversi semua fitur numerik ke skala yang sama, Anda menggunakan transformasi "Tanh" (dengan modul Normalisasi Data). Ini mengubah angka menjadi ke rentang kisaran [0,1]. Modul SVM mengonversi fitur string ke fitur kategoris kemudian ke fitur biner 0/1, sehingga Anda tidak perlu mengubah fitur string secara manual. Selain itu, jangan mengubah kolom Risiko Kredit (kolom 21) - nilainya numerik, tetapi itu adalah nilai yang kita latih agar diprediksi model, jadi biarkan saja.

Untuk menyiapkan model SVM, lakukan hal berikut:

  1. Temukan modul Mesin Vektor Dukungan Dua Kelas di palet modul dan seret ke kanvas.

  2. Klik kanan modul Latih Model, pilih Salin, lalu klik kanan kanvas dan pilih Tempel. Salinan modul Latih Model memiliki pilihan kolom yang sama dengan aslinya.

  3. Sambungkan output modul Mesin Vektor Dukungan Dua Kelas ke port input kiri modul Latih Model kedua.

  4. Temukan modul Normalisasi Data dan seret ke kanvas.

  5. Sambungkan output kiri modul Jalankan Skrip R kiri ke input modul ini (perhatikan bahwa port output modul dapat disambungkan ke lebih dari satu modul lainnya).

  6. Sambungkan port output kiri modul Normalisasi Data ke port input kanan modul Latih Model kedua.

Bagian ini dari eksperimen kita sekarang seharusnya terlihat seperti ini:

Melatih model kedua

Sekarang konfigurasikan modul Normalisasi Data:

  1. Klik untuk memilih modul Normalisasi Data. Di panel Properti, pilih Tanh untuk parameter metode Transformasi.

  2. Klik Luncurkan pemilih kolom, pilih "Tidak ada kolom" untuk Diawali Dengan, pilih Sertakan di menu drop-down pertama, pilih jenis kolom di menu drop-down kedua, dan pilih Numerik di drop-down ketiga. Ini menentukan bahwa semua kolom numerik (dan hanya numerik) yang ditransformasikan.

  3. Klik tanda plus (+) di sebelah kanan baris ini - ini membuat baris drop-down. Pilih Kecualikan di menu drop-down pertama, pilih nama kolom di menu drop-down kedua, dan masukkan "Risiko kredit" di bidang teks. Ini menentukan bahwa kolom Risiko Kredit harus diabaikan (Anda perlu melakukan ini karena kolom ini numerik sehingga akan ditransformasikan jika Anda tidak mengecualikannya).

  4. Klik tanda centang OK.

    Memilih kolom untuk modul Normalisasi Data

Modul Normalisasi Data kini diatur untuk melakukan transformasi Tanh pada semua kolom numerik kecuali untuk kolom Risiko Kredit.

Memberi skor dan mengevaluasi model

Anda menggunakan data pengujian yang dipisahkan oleh modul Pisahkan Data untuk memberi skor pada model yang telah dilatih. Anda kemudian dapat membandingkan hasil dari dua model untuk melihat mana yang memberikan hasil yang lebih baik.

Menambahkan modul Beri Skor Model

  1. Temukan modul Beri Skor Model dan seret ke kanvas.

  2. Sambungkan modul Latih Model yang tersambung ke modul Pohon Keputusan Yang Didorong Dua Kelas ke port input kiri modul Beri Skor Model.

  3. Sambungkan modul Jalankan Skrip R kanan (data pengujian kami) ke port input kanan modul Beri Skor Model.

    Modul Beri Skor Model tersambung

    Modul Beri Skor Model sekarang dapat mengambil informasi kredit dari data pengujian, menjalankannya melalui model, dan membandingkan prediksi yang dihasilkan model dengan kolom risiko kredit aktual dalam data pengujian.

  4. Salin dan tempel modul Beri Skor Model untuk membuat salinan kedua.

  5. Sambungkan output model SVM (yaitu, port output modul Latih Model yang tersambung ke modul Mesin Vektor Dukungan Dua Kelas) ke port input modul Beri Skor Model kedua.

  6. Untuk model SVM, Anda harus melakukan transformasi yang sama pada data pengujian seperti yang Anda lakukan pada data pelatihan. Jadi salin dan tempel modul Normalisasi Data untuk membuat salinan kedua dan menyambungkannya ke modul Jalankan Skrip R yang tepat.

  7. Sambungkan output kiri modul Normalisasi Data kedua ke port input kanan modul Beri Skor Model kedua.

    Kedua modul Beri Skor Model tersambung

Menambahkan modul Evaluasi Model

Untuk mengevaluasi dua hasil pemberian skor dan membandingkannya, Anda menggunakan modul Evaluasi Model.

  1. Temukan modul Evaluasi Model dan seret ke kanvas.

  2. Sambungkan port output modul Beri Skor Model yang terkait dengan model pohon keputusan yang didorong ke port input kiri modul Evaluasi Model.

  3. Sambungkan modul Beri Skor Model lainnya ke port input kanan.

    Modul Evaluasi Model tersambung

Menjalankan eksperimen dan memeriksa hasilnya

Untuk menjalankan eksperimen, klik tombol JALANKAN di bawah kanvas. Proses ini memerlukan waktu beberapa menit. Indikator berputar pada setiap modul menunjukkan bahwa modul berjalan, lalu tanda centang hijau ditampilkan ketika modul selesai. Ketika semua modul memiliki tanda centang, eksperimen telah selesai dijalankan.

Eksperimen sekarang seharusnya terlihat seperti ini:

Mengevaluasi kedua model

Untuk memeriksa hasilnya, klik port output modul Evaluasi Model dan pilih Visualisasikan.

Modul Evaluasi Model menghasilkan sepasang kurva dan metrik yang memungkinkan Anda membandingkan hasil dari dua model yang diberi skor. Anda dapat melihat hasilnya sebagai kurva Karakteristik Operator Penerima (ROC), kurva Presisi/Pengenalan, atau kurva Angkat. Data tambahan yang ditampilkan mencakup matriks kebingungan, nilai kumulatif untuk area di bawah kurva (AUC), dan metrik lainnya. Anda bisa mengubah nilai ambang dengan memindahkan penggeser ke kiri atau kanan dan melihat pengaruhnya pada set metrik.

Di sebelah kanan grafik, klik Himpunan data yang diberi skor atau Himpunan data yang diberi skor untuk dibandingkan guna menyoroti kurva terkait dan menampilkan metrik terkait di bawah ini. Dalam legenda untuk kurva, "Himpunan data yang diberi skor" sesuai dengan port input kiri modul Evaluasi Model - dalam kasus kita, ini adalah model pohon keputusan yang didorong. "Himpunan data yang diberi skor untuk dibandingkan" sesuai dengan port input kanan - model SVM dalam kasus kita. Saat Anda mengklik salah satu label ini, kurva untuk model tersebut disorot dan metrik terkait ditampilkan, seperti yang diperlihatkan dalam grafik berikut.

Kurva ROC untuk model

Dengan memeriksa nilai-nilai ini, Anda dapat memutuskan model mana yang paling dapat memberi Anda hasil yang diharapkan. Anda dapat kembali dan mengulang eksperimen dengan mengubah nilai parameter dalam model yang berbeda.

Ilmu dan seni menafsirkan hasil ini dan menyesuaikan performa model berada di luar lingkup tutorial ini. Untuk bantuan tambahan, Anda dapat membaca artikel berikut ini:

Tip

Setiap kali Anda menjalankan eksperimen, catatan perulangan itu disimpan dalam Riwayat Eksekusi. Anda dapat melihat perulangan ini, dan kembali ke salah satu dari perulangan tersebut, dengan mengklik LIHAT RIWAYAT EKSEKUSI di bawah kanvas. Anda juga bisa mengklik Eksekusi Sebelumnya di panel Properti untuk kembali ke perulangan sebelum perulangan yang Anda buka.

Anda dapat membuat salinan perulangan eksperimen Anda dengan mengklik SIMPAN SEBAGAI di bawah kanvas. Gunakan properti Ringkasan dan Deskripsi eksperimen untuk menyimpan data dari apa yang telah Anda coba dalam perulangan eksperimen Anda.

Untuk informasi selengkapnya, lihat Mengelola perulangan eksperimen di Azure Machine Learning Studio (klasik).

Membersihkan sumber daya

Jika Anda tidak lagi memerlukan sumber daya yang Anda buat menggunakan artikel ini, hapus untuk menghindari dikenakan biaya apa pun. Pelajari caranya dalam artikel, Mengekspor dan menghapus data pengguna dalam produk.

Langkah berikutnya

Dalam tutorial ini Anda menyelesaikan langkah-langkah ini:

  • Membuat eksperimen
  • Melatih beberapa model
  • Memberi skor dan mengevaluasi model

Anda sekarang siap untuk menyebarkan model untuk data ini.