Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Jala data membantu organisasi berpindah dari data lake atau gudang data terpusat ke desentralisasi data analitik berbasis domain yang digarisbawahi oleh empat prinsip: Kepemilikan Domain, Data sebagai Produk, Platform Data Mandiri, dan Tata Kelola Komputasi Federasi. Data mesh memberikan manfaat kepemilikan data terdistribusi dan peningkatan kualitas serta tata kelola data yang mempercepat bisnis dan pencapaian nilai bagi organisasi.
Implementasi data mesh
Implementasi jala data umum mencakup tim domain dengan teknisi data yang membangun alur data. Tim mengelola penyimpanan data operasional dan analitik, seperti danau data, gudang data, atau rumah danau data. Mereka merilis alur sebagai produk data untuk dikonsumsi tim domain atau tim ilmu data lainnya. Tim lain menggunakan produk data menggunakan platform tata kelola data pusat seperti yang ditunjukkan dalam diagram berikut.
diagram arsitektur
Data mesh menjelaskan dengan jelas bagaimana produk data melayani himpunan data yang telah diubah dan diagregasi untuk kecerdasan bisnis. Tetapi tidak eksplisit tentang pendekatan yang harus diambil organisasi untuk membangun model AI/ML. Juga tidak ada panduan tentang cara menyusun tim ilmu data mereka, tata kelola model AI/ML, dan cara berbagi model atau fitur AI/ML di antara tim domain.
Bagian berikut menguraikan beberapa strategi yang dapat digunakan organisasi untuk mengembangkan kemampuan AI/ML dalam jala data. Dan Anda melihat proposal untuk strategi mengenai rekayasa fitur berbasis domain atau jaringan fitur.
Strategi AI/ML untuk jala data
Salah satu strategi umum adalah agar organisasi mengadopsi tim ilmu data sebagai konsumen data. Tim ini mengakses berbagai produk data domain dalam jala data sesuai kasus penggunaan. Mereka melakukan eksplorasi data dan rekayasa fitur untuk mengembangkan dan membangun model AI/ML. Dalam beberapa kasus, tim domain juga mengembangkan model AI/ML mereka sendiri dengan menggunakan data mereka dan produk data tim lain untuk memperluas dan memperoleh fitur baru.
Rekayasa fitur adalah inti dari pembuatan model dan biasanya kompleks dan membutuhkan keahlian domain. Strategi ini dapat memakan waktu karena tim ilmu data perlu menganalisis berbagai produk data. Mereka mungkin tidak memiliki pengetahuan domain lengkap untuk membangun fitur berkualitas tinggi. Kurangnya pengetahuan domain dapat menyebabkan upaya rekayasa fitur duplikat antar tim domain. Selain itu, masalah seperti reproduksi model AI/ML karena set fitur yang tidak konsisten antar tim. Tim ilmu data atau domain perlu terus menyegarkan fitur saat versi baru produk data dirilis.
Strategi lain adalah agar tim domain merilis model AI/ML dalam format seperti Open Neural Network Exchange (ONNX), tetapi hasil ini adalah kotak hitam dan menggabungkan model atau fitur AI/ML di seluruh domain akan sulit.
Apakah ada cara untuk mendesentralisasi pembangunan model AI/ML di seluruh tim domain dan ilmu data untuk mengatasi tantangan? Strategi rekayasa fitur berbasis domain atau strategi jala fitur yang diusulkan adalah opsi.
Rekayasa fitur berbasis domain atau jala fitur
Rekayasa fitur berbasis domain atau strategi jala fitur menawarkan pendekatan terdesentralisasi untuk membangun model AI/ML dalam pengaturan jala data. Diagram berikut menunjukkan strategi dan cara mengatasi empat prinsip utama jala data.
diagram arsitektur
Rekayasa fitur kepemilikan domain oleh tim domain
Dalam strategi ini, organisasi memasangkan ilmuwan data dengan insinyur data dalam tim domain untuk menjalankan eksplorasi data pada data yang telah bersih dan diubah, misalnya dalam sebuah danau data. Teknik menghasilkan fitur yang disimpan di penyimpanan fitur. Toko fitur adalah repositori data yang menyediakan fitur untuk proses pelatihan dan inferensi serta membantu melacak versi fitur, metadata, dan statistik. Kemampuan ini memungkinkan ilmuwan data dalam tim domain bekerja erat dengan pakar domain dan memperbarui fitur ketika data berubah di domain.
Data sebagai produk: Kumpulan fitur
Fitur yang dihasilkan oleh tim domain, yang dikenal sebagai fitur domain atau lokal, diterbitkan ke katalog data di platform tata kelola data sebagai kumpulan fitur. Set fitur ini digunakan oleh tim ilmu data atau tim domain lainnya untuk membangun model AI/ML. Selama pengembangan model AI/ML, tim ilmu data atau domain dapat menggabungkan fitur domain untuk menghasilkan fitur baru, yang disebut fitur bersama atau global. Fitur bersama ini diterbitkan kembali ke katalog kumpulan fitur untuk digunakan.
Platform data mandiri dan tata kelola komputasi federasi: Standardisasi dan kualitas fitur
Strategi ini dapat menyebabkan adopsi tumpukan teknologi yang berbeda untuk alur rekayasa fitur dan definisi fitur yang tidak konsisten antara tim domain. Prinsip platform data mandiri memastikan bahwa tim domain menggunakan infrastruktur dan alat umum untuk membangun alur rekayasa fitur dan menerapkan kontrol akses. Prinsip Federated Computational Governance memastikan interoperabilitas set fitur melalui standarisasi global dan memeriksa kualitas fitur.
Menggunakan rekayasa fitur berbasis domain atau strategi jala fitur menawarkan pendekatan pembuatan model AI/ML terdesentralisasi bagi organisasi untuk membantu mengurangi waktu dalam mengembangkan model AI/ML. Strategi ini membantu menjaga fitur tetap konsisten di seluruh tim domain. Ini menghindari duplikasi upaya dan menghasilkan fitur berkualitas tinggi untuk model AI/ML yang lebih akurat, yang meningkatkan nilai bisnis.
Implementasi jala data di Azure
Artikel ini menjelaskan konsep seputar mengoperasionalkan AI/ML dalam jala data dan tidak mencakup alat atau arsitektur untuk membangun strategi ini. Azure menawarkan penyimpanan fitur seperti penyimpanan fitur Azure Databricks dan Feathr dari LinkedIn. Anda dapat mengembangkan Microsoft Purview konektor kustom untuk mengelola dan mengatur penyimpanan fitur.