Tahap akuisisi dan pemahaman data siklus hidup Team Ilmu Data Process
Artikel ini merangkum tujuan, tugas, dan hasil kerja yang terkait dengan tahap akuisisi dan pemahaman data dalam Proses Data Science Tim (TDSP). Proses ini menyediakan siklus hidup yang direkomendasikan yang dapat digunakan tim Anda untuk menyusun proyek ilmu data Anda. Siklus hidup menguraikan tahapan utama yang dilakukan tim Anda, sering kali berulang:
- Pemahaman Bisnis
- Akuisisi dan pemahaman data
- Pemodelan
- Penyebaran
- Penerimaan pelanggan
Berikut adalah representasi visual siklus hidup TDSP:
Sasaran
Tujuan dari tahap akuisisi dan pemahaman data adalah untuk:
Menghasilkan himpunan data yang bersih dan berkualitas tinggi yang dengan jelas berkaitan dengan variabel target. Temukan himpunan data di lingkungan analitik yang sesuai sehingga tim Anda siap untuk tahap pemodelan.
Mengembangkan arsitektur solusi dari alur data yang me-refresh dan memberi skor data secara teratur.
Cara menyelesaikan tugas
Tahap akuisisi dan pemahaman data memiliki tiga tugas utama:
Menyerap data ke lingkungan analitik target.
Jelajahi data untuk menentukan apakah data dapat menjawab pertanyaan.
Siapkan alur data untuk memberi skor data baru atau data yang di-refresh secara teratur.
Menyerap data
Siapkan proses untuk memindahkan data dari lokasi sumber ke lokasi target tempat Anda menjalankan operasi analitik, seperti pelatihan dan prediksi.
Jelajahi data
Sebelum melatih model, Anda perlu mengembangkan pemahaman yang jelas tentang data. Himpunan data dunia nyata sering berisik, kehilangan nilai, atau memiliki sejumlah perbedaan lainnya. Anda dapat menggunakan ringkasan dan visualisasi data untuk mengaudit kualitas data Anda dan mengumpulkan informasi untuk memproses data sebelum siap untuk pemodelan. Proses ini sering kali berulang.
Setelah Anda puas dengan kualitas data yang dibersihkan, langkah selanjutnya adalah lebih memahami pola dalam data. Analisis data ini membantu Anda memilih dan mengembangkan model prediktif yang sesuai untuk target Anda. Tentukan berapa banyak data yang sesuai dengan target. Kemudian putuskan apakah tim Anda memiliki data yang memadai untuk bergerak maju dengan langkah-langkah pemodelan berikutnya. Sekali lagi, proses ini sering kali berulang. Anda mungkin perlu menemukan sumber data baru dengan data yang lebih akurat atau lebih relevan untuk menyesuaikan himpunan data yang awalnya diidentifikasi pada tahap sebelumnya.
Menyiapkan alur data
Selain menyerap dan membersihkan data, Anda biasanya perlu menyiapkan proses untuk menilai data baru atau merefresh data secara teratur sebagai bagian dari proses pembelajaran yang sedang berlangsung. Anda dapat menggunakan alur data atau alur kerja untuk menilai data. Kami merekomendasikan alur yang menggunakan Azure Data Factory.
Pada tahap ini, Anda mengembangkan arsitektur solusi dari alur data. Anda membuat alur secara paralel dengan tahap berikutnya dari proyek ilmu data. Tergantung pada kebutuhan bisnis Anda dan batasan sistem Anda yang ada di mana solusi ini sedang diintegrasikan, alurnya dapat:
- Berbasis batch
- Streaming atau real time
- Hibrid
Integrasikan dengan MLflow
Selama fase pemahaman data, Anda dapat menggunakan pelacakan eksperimen MLflow untuk melacak dan mendokumentasikan berbagai strategi praproses data dan analisis data eksploratif.
Artefak
Dalam tahap ini, tim Anda memberikan:
Laporan kualitas data yang mencakup ringkasan data, hubungan antara setiap atribut dan target, peringkat variabel, dan banyak lagi.
Arsitektur solusi, seperti diagram atau deskripsi alur data yang digunakan tim Anda untuk menjalankan prediksi pada data baru. Diagram ini juga berisi alur untuk melatakan kembali model Anda berdasarkan data baru. Saat Anda menggunakan templat struktur direktori TDSP, simpan dokumen di direktori proyek.
Keputusan titik pemeriksaan. Sebelum memulai rekayasa fitur lengkap dan pembuatan model, Anda dapat mengevaluasi ulang proyek untuk menentukan apakah nilai yang diharapkan cukup untuk terus mengejarnya. Anda mungkin, misalnya, siap untuk melanjutkan, perlu mengumpulkan lebih banyak data, atau meninggalkan proyek jika Anda tidak dapat menemukan data yang menjawab pertanyaan.
Literatur yang ditinjau serekan
Peneliti menerbitkan studi tentang TDSP dalam sastra yang ditinjau serekan. Kutipan ini memberikan kesempatan untuk menyelidiki aplikasi lain atau ide serupa dengan TDSP, termasuk tahap akuisisi dan pemahaman siklus hidup data.
Kontributor
Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.
Penulis utama:
- Tandai Tabladillo | Arsitek Solusi Cloud Senior
Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.
Sumber daya terkait
Artikel-artikel ini menjelaskan tahapan lain dari siklus hidup TDSP: