Tahap pemodelan siklus hidup Proses Ilmu Data Tim
Artikel ini merangkum tujuan, tugas, dan hasil kerja yang terkait dengan tahap pemodelan Proses Ilmu Data Tim (TDSP). Proses ini menyediakan siklus hidup yang direkomendasikan yang dapat digunakan tim Anda untuk menyusun proyek ilmu data Anda. Siklus hidup menguraikan tahapan utama yang dilakukan tim Anda, sering kali berulang:
- Pemahaman Bisnis
- Akuisisi dan pemahaman data
- Pemodelan
- Penyebaran
- Penerimaan pelanggan
Berikut adalah representasi visual siklus hidup TDSP:
Sasaran
Tujuan dari tahap pemodelan adalah untuk:
Tentukan fitur data optimal untuk model pembelajaran mesin.
Buat model pembelajaran mesin informatif yang memprediksi target paling akurat.
Buat model pembelajaran mesin yang cocok untuk produksi.
Cara menyelesaikan tugas
Tahap pemodelan memiliki tiga tugas utama:
Rekayasa fitur: Buat fitur data dari data mentah untuk memfasilitasi pelatihan model.
Pelatihan model: Temukan model yang menjawab pertanyaan paling akurat dengan membandingkan metrik keberhasilan model.
Evaluasi model: Tentukan apakah model Anda cocok untuk produksi.
Rekayasa fitur
Rekayasa fitur melibatkan inklusi, agregasi, dan transformasi variabel mentah untuk membuat fitur yang digunakan dalam analisis. Jika Anda ingin wawasan tentang bagaimana model dibangun, maka Anda perlu mempelajari fitur dasar model.
Langkah ini membutuhkan kombinasi kreatif antara keahlian domain dan wawasan yang diperoleh dari langkah eksplorasi data. Rekayasa fitur adalah tindakan penyeimbangan untuk menemukan dan menyertakan variabel informatif tetapi pada saat yang sama mencoba menghindari terlalu banyak variabel yang tidak terkait. Variabel informatif meningkatkan hasil Anda. Variabel yang tidak terkait memperkenalkan kebisingan yang tidak perlu ke dalam model. Anda juga perlu membuat fitur-fitur ini untuk setiap data baru yang diperoleh selama penentuan skor. Akibatnya, pembuatan fitur ini hanya dapat bergantung pada data yang tersedia pada saat penentuan skor.
Pelatihan model
Ada banyak algoritma pemodelan yang dapat Anda gunakan, tergantung pada jenis pertanyaan yang ingin Anda jawab. Untuk panduan tentang memilih algoritma bawaan, lihat Pembelajaran Mesin contekan algoritma untuk perancang Azure Pembelajaran Mesin. Algoritma lain tersedia melalui paket sumber terbuka di R atau Python. Meskipun artikel ini berfokus pada Azure Pembelajaran Mesin, panduan yang disediakannya berguna untuk banyak proyek pembelajaran mesin.
Proses untuk pelatihan model mencakup langkah-langkah berikut:
Pisahkan data input untuk pemodelan secara acak ke dalam himpunan data pelatihan dan himpunan data pengujian.
Buat model dengan menggunakan himpunan data pelatihan.
Evaluasi pelatihan dan himpunan data pengujian. Gunakan serangkaian algoritma pembelajaran mesin yang bersaing. Gunakan berbagai parameter penyetelan terkait (dikenal sebagai sapuan parameter) yang diarahkan untuk menjawab pertanyaan yang menarik dengan data saat ini.
Tentukan solusi terbaik untuk menjawab pertanyaan dengan membandingkan metrik keberhasilan antara metode alternatif.
Untuk informasi selengkapnya, lihat Melatih model dengan Pembelajaran Mesin.
Catatan
Hindari kebocoran: Anda dapat menyebabkan kebocoran data jika Anda menyertakan data dari luar himpunan data pelatihan yang memungkinkan algoritma model atau pembelajaran mesin membuat prediksi yang baik secara tidak realistis. Kebocoran adalah alasan umum mengapa ilmuwan data merasa gugup ketika mereka mendapatkan hasil prediktif yang tampaknya terlalu bagus untuk menjadi kenyataan. Dependensi ini mungkin sulit dideteksi. Menghindari kebocoran sering kali memerlukan iterasi antara membangun himpunan data analisis, membuat model, dan mengevaluasi akurasi hasil.
Evaluasi model
Setelah Anda melatih model, ilmuwan data di tim Anda berfokus pada evaluasi model.
Membuat penentuan: Mengevaluasi apakah model berkinerja cukup untuk produksi. Beberapa pertanyaan utama yang perlu diajukan antara lain:
Apakah model menjawab pertanyaan dengan cukup yakin sehubungan dengan data pengujian?
Haruskah Anda mencoba pendekatan alternatif?
Haruskah Anda mengumpulkan lebih banyak data, melakukan lebih banyak rekayasa fitur, atau bereksperimen dengan algoritma lain?
Menginterpretasikan model: Gunakan Pembelajaran Mesin Python SDK untuk melakukan tugas-tugas berikut:
Jelaskan seluruh perilaku model atau prediksi individu pada mesin pribadi Anda secara lokal.
Aktifkan teknik interpretasi untuk fitur yang direkayasa.
Jelaskan perilaku untuk seluruh model dan prediksi individu di Azure.
Unggah penjelasan ke riwayat eksekusi Pembelajaran Mesin.
Gunakan dasbor visualisasi untuk berinteraksi dengan penjelasan model Anda, baik di notebook Jupyter maupun di ruang kerja Pembelajaran Mesin.
Sebarkan penjelas skor di samping model Anda untuk mengamati penjelasan selama melakukan inferensi.
Menilai kewajaran: Gunakan paket Python sumber terbuka fairlearn dengan Pembelajaran Mesin untuk melakukan tugas-tugas berikut:
Nilai kewajaran prediksi model Anda. Proses ini membantu tim Anda mempelajari lebih lanjut tentang kewajaran dalam pembelajaran mesin.
Unggah, daftar, dan unduh wawasan penilaian kewajaran ke dan dari studio Pembelajaran Mesin.
Lihat dasbor penilaian kewajaran di studio Pembelajaran Mesin untuk berinteraksi dengan wawasan kewajaran model Anda.
Integrasikan dengan MLflow
Pembelajaran Mesin terintegrasi dengan MLflow untuk mendukung siklus hidup pemodelan. Ini menggunakan pelacakan MLflow untuk eksperimen, penyebaran proyek, manajemen model, dan registri model. Integrasi ini memastikan alur kerja pembelajaran mesin yang lancar dan efisien. Fitur berikut dalam Pembelajaran Mesin membantu mendukung elemen siklus hidup pemodelan ini:
Melacak eksperimen: Fungsionalitas inti MLflow secara ekstensif digunakan dalam tahap pemodelan untuk melacak berbagai eksperimen, parameter, metrik, dan artefak.
Menyebarkan proyek: Mengemas kode dengan Proyek MLflow memastikan eksekusi yang konsisten dan berbagi yang mudah di antara anggota tim, yang penting selama pengembangan model berulang.
Mengelola model: Mengelola dan membuat versi model sangat penting dalam fase ini karena model yang berbeda dibangun, dievaluasi, dan disempurnakan.
Mendaftarkan model: Registri model digunakan untuk membuat versi dan mengelola model sepanjang siklus hidupnya.
Literatur yang ditinjau serekan
Peneliti menerbitkan studi tentang TDSP dalam sastra yang ditinjau serekan. Kutipan memberikan kesempatan untuk menyelidiki aplikasi lain atau ide serupa dengan TDSP, termasuk tahap siklus hidup pemodelan.
Kontributor
Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.
Penulis utama:
- Tandai Tabladillo | Arsitek Solusi Cloud Senior
Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.
Sumber daya terkait
Artikel-artikel ini menjelaskan tahapan lain dari siklus hidup TDSP: