Bagikan melalui


Tahap pemahaman bisnis dari siklus hidup Team Data Science Process

Artikel ini menguraikan tujuan, tugas, dan hasil kerja yang terkait dengan tahap pemahaman bisnis dari Team Data Science Process (TDSP). Proses ini menyediakan siklus hidup yang direkomendasikan yang dapat digunakan tim Anda untuk menyusun proyek ilmu data Anda. Siklus hidup menguraikan tahapan utama yang dilakukan tim Anda, sering kali berulang:

  • Pemahaman Bisnis
  • Akuisisi dan pemahaman data
  • Pemodelan
  • Penyebaran
  • Penerimaan pelanggan

Berikut adalah representasi visual siklus hidup TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Sasaran

Tujuan dari tahap pemahaman bisnis adalah untuk:

  • Tentukan variabel kunci yang berfungsi sebagai target model. Dan tentukan metrik target, yang menentukan keberhasilan proyek.

  • Identifikasi sumber data relevan yang dapat diakses atau perlu diperoleh oleh bisnis.

Cara menyelesaikan tugas

Tahap pemahaman bisnis memiliki dua tugas utama:

  • Tentukan tujuan: Bekerja dengan pelanggan Anda dan pemangku kepentingan lainnya untuk memahami dan mengidentifikasi masalah bisnis. Merumuskan pertanyaan yang menentukan tujuan bisnis yang dapat ditargetkan oleh teknik data science.

  • Mengidentifikasi sumber data: Temukan data relevan yang membantu Anda menjawab pertanyaan yang menentukan tujuan proyek.

Tentukan tujuan

  1. Tujuan utama dari tahap ini adalah untuk mengidentifikasi variabel bisnis utama yang perlu diprediksi oleh analisis. Variabel ini disebut target model, dan metrik yang terkait dengannya digunakan untuk menentukan keberhasilan proyek. Misalnya, target dapat berupa prakiraan penjualan atau probabilitas pesanan menjadi penipuan.

  2. Untuk menentukan tujuan proyek, ajukan dan perbaiki pertanyaan tajam yang relevan, spesifik, dan tidak ambigu. Data science adalah proses yang menggunakan nama dan angka untuk menjawab pertanyaan tersebut. Anda biasanya menggunakan data science atau pembelajaran mesin untuk menjawab lima jenis pertanyaan:

    • Berapa banyak atau berapa banyak? (regresi)
    • Kategori yang mana? (klasifikasi)
    • Kelompok yang mana? (pengklusteran)
    • Apakah ini tidak biasa? (deteksi anomali)
    • Opsi mana yang harus diambil? (rekomendasi)

    Tentukan pertanyaan mana yang akan diajukan dan bagaimana menjawabnya dapat membantu mencapai tujuan bisnis Anda.

  3. Untuk menentukan tim proyek, tentukan peran dan tanggung jawab anggotanya. Kembangkan rencana pencapaian tingkat tinggi yang Anda ulangi saat Anda menemukan lebih banyak informasi.

  4. Anda harus menentukan metrik keberhasilan. Misalnya, Anda mungkin ingin memenuhi prediksi churn pelanggan dengan tingkat akurasi x persen pada akhir proyek tiga bulan. Dengan data ini, Anda dapat menawarkan promosi pelanggan untuk mengurangi churn. Metrik harus SMART:

    • Specific
    • Measurable
    • Achievable
    • Relevant
    • Time-bound

Mengidentifikasi sumber data

Identifikasi sumber data yang berisi contoh jawaban yang diketahui untuk pertanyaan Anda. Cari data berikut:

  • Data yang relevan dengan pertanyaan. Apakah Anda memiliki ukuran target dan fitur yang terkait dengan target?
  • Data yang merupakan ukuran akurat dari target model Anda dan fitur yang diminati.

Misalnya, sistem yang ada mungkin tidak memiliki data yang diperlukan untuk mengatasi masalah dan mencapai tujuan proyek. Dalam situasi ini, Anda mungkin perlu menemukan sumber data eksternal atau memperbarui sistem Anda untuk mengumpulkan data baru.

Integrasikan dengan MLflow

Untuk tahap pemahaman bisnis, tim Anda tidak menggunakan alat MLflow, tetapi secara tidak langsung dapat memperoleh manfaat dari kemampuan dokumentasi dan pelacakan eksperimen MLflow. Fitur-fitur ini dapat memberikan wawasan dan konteks historis untuk membantu menyelaraskan proyek dengan tujuan bisnis.

Artefak

Dalam tahap ini, tim Anda memberikan:

  • Dokumen piagam. Dokumen piagam adalah dokumen hidup. Anda memperbarui dokumen di seluruh proyek saat Anda membuat penemuan baru dan saat persyaratan bisnis berubah. Kuncinya adalah melakukan iterasi pada dokumen ini. Tambahkan detail lebih lanjut saat Anda maju melalui proses penemuan. Beri tahu pelanggan dan pemangku kepentingan lain tentang perubahan dan alasannya.

  • Sumber data. Anda dapat menggunakan Azure Pembelajaran Mesin untuk menangani manajemen sumber data. Kami merekomendasikan layanan Azure ini untuk proyek aktif dan terutama besar karena terintegrasi dengan MLflow.

  • Kamus data. Dokumen ini menyediakan deskripsi data yang disediakan klien. Deskripsi ini mencakup informasi tentang skema (jenis data dan informasi tentang aturan validasi, jika ada) dan diagram relasi entitas, jika tersedia. Tim Anda harus mendokumentasikan beberapa atau semua informasi ini.

Literatur yang ditinjau serekan

Peneliti menerbitkan studi tentang TDSP dalam sastra yang ditinjau serekan. Kutipan memberikan kesempatan untuk menyelidiki aplikasi lain atau ide serupa dengan TDSP, termasuk tahap siklus hidup pemahaman bisnis.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Artikel-artikel ini menjelaskan tahapan lain dari siklus hidup TDSP: