Apa itu Proses Data Science Tim?

Azure Machine Learning

Team Ilmu Data Process (TDSP) adalah metodologi ilmu data yang lincah dan berulang yang dapat Anda gunakan untuk memberikan solusi analitik prediktif dan aplikasi AI secara efisien. TDSP membantu meningkatkan kolaborasi dan pembelajaran tim dengan menyarankan bagaimana peran tim bekerja sama dengan baik. TDSP mencakup praktik dan struktur terbaik dari Microsoft dan pemimpin industri lainnya untuk membantu tim Anda berhasil menerapkan inisiatif ilmu data dan sepenuhnya mewujudkan manfaat program analitik Anda.

Artikel ini memberikan gambaran umum tentang TDSP dan komponen utamanya. Ini menyajikan panduan tentang cara menerapkan TDSP dengan menggunakan alat dan infrastruktur Microsoft. Anda dapat menemukan sumber daya yang lebih rinci di seluruh artikel.

Komponen utama TDSP

TDSP memiliki komponen utama berikut:

  • Definisi siklus hidup data science
  • Struktur proyek yang terstandardisasi
  • Infrastruktur dan sumber daya yang direkomendasikan untuk proyek data science
  • Alat dan utilitas yang direkomendasikan untuk eksekusi proyek

Siklus hidup data science

TDSP menyediakan siklus hidup yang dapat Anda gunakan untuk menyusun pengembangan proyek ilmu data Anda. Siklus hidup menguraikan langkah-langkah lengkap yang diikuti oleh proyek yang berhasil.

Anda dapat menggabungkan TDSP berbasis tugas dengan siklus hidup ilmu data lainnya, seperti proses standar lintas industri untuk penambangan data (CRISP-DM), penemuan pengetahuan dalam proses database (KDD), atau proses kustom lainnya. Pada tingkat tinggi, metodologi yang berbeda ini memiliki banyak kesamaan.

Anda harus menggunakan siklus hidup ini jika Anda memiliki proyek ilmu data yang merupakan bagian dari aplikasi cerdas. Aplikasi cerdas menyebarkan pembelajaran mesin atau model AI untuk analitik prediktif. Anda juga dapat menggunakan proses ini untuk proyek ilmu data eksplorasi dan proyek analitik improvisasi.

Siklus hidup TDSP terdiri dari lima tahap utama yang dilakukan tim Anda secara berulang. Tahapan ini meliputi:

Berikut adalah representasi visual siklus hidup TDSP:

Diagram that shows the stages of the TDSP lifecycle.

Untuk informasi tentang tujuan, tugas, dan artefak dokumentasi untuk setiap tahap, lihat Siklus hidup Team Ilmu Data Process.

Tugas dan artefak ini dikaitkan dengan peran proyek, misalnya:

  • Arsitek solusi.
  • Manajer proyek.
  • Insinyur data.
  • Ilmuwan data.
  • Pengembang aplikasi.
  • Prospek proyek.

Diagram berikut menunjukkan tugas (berwarna biru) dan artefak (berwarna hijau) yang terkait dengan setiap tahap siklus hidup (pada sumbu horizontal) untuk peran ini (pada sumbu vertikal).

Diagram that shows the tasks and artifacts for each stage.

Struktur proyek yang terstandardisasi

Tim Anda dapat menggunakan infrastruktur Azure untuk mengatur aset ilmu data Anda.

Azure Pembelajaran Mesin mendukung MLflow sumber terbuka. Sebaiknya gunakan MLflow untuk ilmu data dan manajemen proyek AI. MLflow dirancang untuk mengelola siklus hidup pembelajaran mesin lengkap. Ini melatih dan melayani model pada platform yang berbeda, sehingga Anda dapat menggunakan serangkaian alat yang konsisten terlepas dari tempat eksperimen Anda berjalan. Anda dapat menggunakan MLflow secara lokal di komputer Anda, pada target komputasi jarak jauh, pada komputer virtual, atau pada instans komputasi Pembelajaran Mesin.

MLflow terdiri dari beberapa fungsi utama:

  • Lacak eksperimen: Dengan MLflow, Anda dapat melacak eksperimen, termasuk parameter, versi kode, metrik, dan file output. Fitur ini membantu Anda membandingkan eksekusi yang berbeda dan mengelola proses eksperimen secara efisien.

  • Kode paket: Ini menawarkan format standar untuk mengemas kode pembelajaran mesin, yang mencakup dependensi dan konfigurasi. Kemasan ini memudahkan untuk mereproduksi eksekusi dan berbagi kode dengan orang lain.

  • Mengelola model: MLflow menyediakan fungsionalitas untuk mengelola dan membuat versi model. Ini mendukung berbagai kerangka kerja pembelajaran mesin, sehingga Anda dapat menyimpan, membuat versi, dan melayani model.

  • Melayani dan menyebarkan model: MLflow mengintegrasikan kemampuan penyajian dan penyebaran model, sehingga Anda dapat dengan mudah menyebarkan model di lingkungan yang beragam.

  • Mendaftarkan model: Anda dapat mengelola siklus hidup model, termasuk penerapan versi, transisi tahap, dan anotasi. MLflow berguna untuk mempertahankan penyimpanan model terpusat di lingkungan kolaboratif.

  • Gunakan API dan UI: Di dalam Azure, MLflow dibundel dalam API Pembelajaran Mesin versi 2, sehingga Anda dapat berinteraksi dengan sistem secara terprogram. Anda dapat menggunakan portal Azure untuk berinteraksi dengan UI.

MLflow bertujuan untuk menyederhanakan dan menstandarkan proses pengembangan pembelajaran mesin, dari eksperimen hingga penyebaran.

Pembelajaran Mesin terintegrasi dengan repositori Git, sehingga Anda dapat menggunakan layanan yang kompatibel dengan Git: GitHub, GitLab, Bitbucket, Azure DevOps, atau layanan lain yang kompatibel dengan Git. Selain aset yang sudah dilacak di Pembelajaran Mesin, tim Anda dapat mengembangkan taksonomi mereka sendiri dalam layanan yang kompatibel dengan Git mereka untuk menyimpan informasi proyek lain, seperti:

  • Dokumentasi
    • Proyek, misalnya laporan proyek akhir
    • Laporan data, misalnya kamus data atau laporan kualitas data
    • Model, misalnya laporan model
  • Kode
    • Penyiapan data
    • Pengembangan model
    • Operasionalisasi, termasuk keamanan dan kepatuhan

Infrastruktur dan sumber daya

TDSP memberikan rekomendasi untuk mengelola analitik bersama dan infrastruktur penyimpanan seperti:

  • Sistem file cloud untuk menyimpan himpunan data
  • Database
  • Kluster big data, misalnya SQL atau Spark
  • Layanan pembelajaran mesin

Anda dapat menempatkan infrastruktur analitik dan penyimpanan, tempat himpunan data mentah dan yang diproses disimpan, di cloud atau lokal. Infrastruktur ini memungkinkan analisis yang dapat direproduksi. Ini juga mencegah duplikasi, yang dapat menyebabkan inkonsistensi dan biaya infrastruktur yang tidak perlu. Infrastruktur ini memiliki alat untuk menyediakan sumber daya bersama, melacaknya, dan memungkinkan setiap anggota tim untuk terhubung ke sumber daya tersebut dengan aman. Ini juga merupakan praktik yang baik untuk membuat anggota proyek menciptakan lingkungan komputasi yang konsisten. Berbagai anggota tim kemudian dapat mereplikasi dan memvalidasi eksperimen.

Berikut adalah contoh tim yang mengerjakan beberapa proyek dan berbagi berbagai komponen infrastruktur analitik cloud:

Diagram that shows the infrastructure of a team.

Alat dan utilitas

Di sebagian besar organisasi, sulit untuk memperkenalkan proses. Infrastruktur ini menyediakan alat untuk mengimplementasikan TDSP dan siklus hidup membantu menurunkan hambatan dan meningkatkan konsistensi adopsi mereka.

Dengan Pembelajaran Mesin, ilmuwan data dapat menerapkan alat sumber terbuka sebagai bagian dari alur atau alur kerja ilmu data. Dalam Pembelajaran Mesin, Microsoft mempromosikan alat AI yang bertanggung jawab, yang membantu mencapai Standar AI Bertanggung Jawab Microsoft.

Kutipan yang ditinjau serekan

TDSP adalah metodologi yang mapan yang digunakan di seluruh keterlibatan Microsoft, dan oleh karena itu telah didokumentasikan dan dipelajari dalam literatur yang ditinjau serekan. Kutipan ini memberikan kesempatan untuk menyelidiki fitur dan aplikasi TDSP. Lihat halaman gambaran umum siklus hidup untuk daftar kutipan.

Peran dan tugas dalam Proses Ilmu Data Tim