Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Azure DevOps Services
Artikel ini menjelaskan alur data integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) Azure dan kepentingannya untuk ilmu data.
Anda dapat menggunakan alur data untuk:
- Menyerap data dari berbagai sumber data.
- Memproses dan mengubah data.
- Simpan data yang diproses ke lokasi penampungan sementara untuk dikonsumsi orang lain.
Alur data perusahaan dapat berkembang menjadi skenario yang lebih rumit dengan beberapa sistem sumber dan berbagai aplikasi hilir yang didukung.
Alur data menyediakan:
- Konsistensi, dengan mengubah data menjadi format yang konsisten untuk digunakan pengguna.
- Pengurangan kesalahan, dengan menggunakan alur data otomatis untuk menghilangkan kesalahan manusia saat memanipulasi data.
- Efisiensi, dengan mengurangi waktu yang dihabiskan untuk transformasi pemrosesan data.
Alur data memungkinkan profesional data fokus pada fungsi pekerjaan inti mereka, mendapatkan wawasan dari data dan membantu bisnis membuat keputusan yang lebih baik.
Integrasi Berkelanjutan dan Penyediaan Berkelanjutan (CI/CD)
Integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) adalah pendekatan pengembangan perangkat lunak di mana semua pengembang bekerja sama dalam repositori kode bersama kode. Saat pengembang membuat perubahan, proses otomatis mendeteksi masalah kode. Hasil penggunaan CI/CD adalah siklus hidup pengembangan yang lebih cepat dengan tingkat kesalahan yang lebih rendah.
Alur data CI/CD dalam ilmu data
Membangun model pembelajaran mesin mirip dengan pengembangan perangkat lunak tradisional karena ilmuwan data menulis kode untuk melatih dan menilai model pembelajaran mesin. Tetapi tidak seperti perangkat lunak tradisional berdasarkan kode, model pembelajaran mesin ilmu data didasarkan pada kedua kode, seperti algoritma dan hiperparameter, dan data yang digunakan untuk melatih model. Sebagian besar ilmuwan data mengatakan mereka menghabiskan 80% dari waktu mereka melakukan persiapan data, pembersihan, dan rekayasa fitur.
Untuk memastikan kualitas model pembelajaran mesin, teknik seperti pengujian A/B juga digunakan untuk membandingkan dan mempertahankan performa model. Pengujian A/B biasanya menggunakan satu model kontrol dan satu atau beberapa model perawatan.
Beberapa model pembelajaran mesin dapat digunakan secara bersamaan, menambahkan lapisan kompleksitas lain untuk CI/CD model pembelajaran mesin. Alur data CI/CD sangat penting bagi tim ilmu data untuk memberikan model pembelajaran mesin berkualitas kepada bisnis secara tepat waktu.