Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Platform data terpadu bergantung pada standar penyerapan, transformasi, dan penerbitan yang konsisten sehingga pemimpin dapat mempercayai data untuk analitik dan AI. Rekomendasi: Tetapkan standar di seluruh organisasi yang mengontrol data apa yang memasuki OneLake, bagaimana tim memperbaiki data tersebut, dan bagaimana produk data yang diatur menjangkau konsumen (lihat Gambar 1). Untuk menerapkan rekomendasi ini, gunakan artikel ini sebagai daftar periksa:
Gambar 1. Tiga langkah untuk mengatur standar operasional untuk data.
1. Mengatur standar penyerapan data
OneLake berfungsi sebagai data lake pusat untuk analitik dan AI di Microsoft Fabric, sehingga pemimpin harus mengontrol apa yang masuk. Rekomendasi: Atur batas yang jelas sehingga tim hanya menyerap data yang mendukung hasil bisnis yang ditentukan. Untuk menerapkan rekomendasi ini, gunakan daftar periksa berikut.
Data apa yang Anda satukan? Penyatuan data di OneLake berarti memilih data yang mendukung produk data yang terkait dengan hasil bisnis yang terukur. Praktik terbaik: Hanya membawa data ke OneLake jika mendukung produk data dan menambahkan nilai bisnis. Perlakukan penyerapan data sebagai keputusan produk daripada default teknis. Panduan keputusan: Putuskan untuk menyerap data saat menjelaskan atau mengukur proses bisnis atau hasil yang dilacak para pemimpin. Pilih untuk meninggalkan data dalam sistem operasional atau penyimpanan departemen saat tidak ada kasus penggunaan aktif. Pilihan ini mengurangi biaya penyimpanan dan overhead tata kelola.
Simpan konten kolaborasi dan pengetahuan di Microsoft 365. Data Microsoft 365 mendukung agen Microsoft 365 Copilot. Agen ini mengambil dokumen, email, dan artefak kolaborasi sambil menghormati izin yang ada. Lihat Arsitektur Microsoft 365 Copilot. Praktik terbaik: Gunakan Microsoft 365 sebagai sistem rekaman untuk konten yang tujuan utamanya adalah kolaborasi, referensi, atau pengambilan pengetahuan. Gunakan panduan adopsi Microsoft 365 untuk menyiapkan data ini.
Integrasikan database operasional melalui pola yang didukung. Database operasional sering menyediakan analitik dan skenario AI, tetapi akses langsung menciptakan risiko dan ketidakstabilan. Praktik terbaik: Gunakan pola yang didukung Microsoft Fabric, seperti pintasan untuk akses virtual dan pencerminan untuk akses yang direplikasi. Database Azure sering memerlukan pencerminan untuk integrasi yang andal. Panduan keputusan: Pilih pintasan saat akses virtual memenuhi kebutuhan performa. Pilih pencerminan saat performa analitik, isolasi, atau penggunaan kembali hilir memerlukan salinan fisik di OneLake.
Integrasikan data lake yang ada. Banyak organisasi sudah mengoperasikan data lake, seperti Azure Data Lake Storage (ADLS), Google Cloud Storage, atau Amazon S3. Praktik terbaik: Perlakukan danau yang ada sebagai bagian dari data estate terpadu daripada memaksa migrasi segera. Gunakan pintasan atau pencerminan. Panduan keputusan: Memutuskan berdasarkan kesiapan dan risiko. Untuk menghindari duplikasi, pilih pintasan. Pilih pencerminan saat konsistensi, performa, atau kepatuhan melebihi biaya duplikasi.
Munculkan output Azure Databricks Surface di OneLake. Azure Databricks sering kali sudah menghasilkan data analitik yang dikumpulkan. Praktik terbaik: Pertahankan alur Databricks di tempat dan tampilkan output Gold akhir di OneLake. Panduan keputusan: Pilih pintasan untuk menghindari replikasi dan kapan akses jarak jauh memenuhi kebutuhan. Pilih pencerminan saat tata kelola atau pola konsumsi menuntut data lokal.
Pisahkan asupan data internal dan eksternal. Data analitik internal dan data yang menghadap eksternal memerlukan kontrol yang berbeda. Praktik terbaik: Buat ruang kerja terpisah atau area lake untuk produk data eksternal. Simpan hanya himpunan data eksternal yang disetujui di lokasi tersebut. Panduan keputusan: Tentukan lebih awal apakah data mendukung keputusan internal atau berbagi eksternal. Pilih pemisahan fisik untuk mengurangi paparan yang tidak disengaja dan menyederhanakan penegakan kebijakan keamanan.
2. Tentukan standar transformasi data
Memasukkan data ke OneLake hanyalah langkah pertama. Nilai nyata berasal dari mengubah data mentah menjadi produk data berkualitas tinggi dan siap digunakan. Pemimpin tidak merancang alur, tetapi mendefinisikan platform dan standar arsitektur yang mencegah fragmentasi. Rekomendasi: Standarisasi platform transformasi dan terapkan arsitektur penyempurnaan yang konsisten. Untuk menerapkan rekomendasi ini, gunakan daftar periksa berikut:
2.1. Menggunakan platform data yang tepat
Pilihan platform Anda menetapkan persyaratan operasional untuk produk data Anda di lingkungan Microsoft dan Azure. Rekomendasi: Untuk setiap produk data, seimbangkan kesederhanaan dan integrasi dengan kebutuhan akan kemampuan teknik khusus. Untuk menerapkan rekomendasi ini, gunakan daftar periksa berikut:
Fabric (default). Fabric menyediakan rekayasa data terintegrasi, analitik, dan mesin BI yang beroperasi langsung di OneLake, yang bertindak sebagai data estate terpadu yang diatur untuk organisasi. Praktik terbaik: Gunakan Fabric untuk analitik standar, pelaporan, dan persiapan data. Mendukung mesin Fabric asli, seperti Dataflows Gen2, Spark, dan SQL untuk menyederhanakan kontrol akses, silsilah data, dan manajemen biaya. Gunakan OneLake sebagai lapisan penyimpanan tunggal. Panduan keputusan: Pilih Fabric jika persyaratan sesuai dengan kemampuan bawaan dan saat kepemimpinan menghargai tata kelola dan penagihan terpadu. Terima penyesuaian terbatas dengan imbalan overhead operasional yang lebih rendah.
Azure Databricks. Banyak orang lebih suka Azure Databricks. Ini mendukung pemrosesan skala besar dan skenario pembelajaran mesin tingkat lanjut. Praktik terbaik: Lanjutkan menggunakan Databricks di mana keahlian atau skala sudah ada. Mengharuskan output mendarat di OneLake atau terhubung melalui pintasan OneLake agar tata kelola, keamanan, dan penemuan tetap terpusat. Panduan keputusan: Pilih Databricks saat Fabric tidak memenuhi persyaratan saat ini. Terima integrasi dan keterampilan yang lebih tinggi sebagai kompromi.
Menerapkan batas kepemilikan platform. Batas platform yang jelas mencegah biaya duplikat dan logika yang tidak konsisten di seluruh sistem. Praktik terbaik: Tetapkan tanggung jawab untuk setiap kelas beban kerja ke satu platform. Memerlukan tinjauan arsitektur sebelum menyetujui pemrosesan lintas platform. Panduan keputusan: Tentukan platform mana yang memiliki hasil penyerapan, transformasi, dan analitik. Mencegah transformasi duplikat dan alur yang tumpang tindih yang memberikan hasil bisnis yang sama.
2.2. Menerapkan arsitektur medali
Arsitektur medali membangun kepercayaan, konsistensi, dan tata kelola di semua produk data dengan mendefinisikan kemajuan yang jelas dari data mentah ke output siap bisnis. Rekomendasi: Wajibkan semua produk data di OneLake untuk mengikuti struktur perunggu, perak, dan emas dan melarang pintasan yang melewati lapisan ini. Untuk menerapkan rekomendasi ini, gunakan daftar periksa berikut:
Mandat lapisan perunggu sebagai sistem rekaman (penyerapan mentah): Lapisan perunggu menangkap data persis seperti yang tiba di OneLake dan mempertahankan keakuratan sumber asli. Praktik terbaik: Simpan data sebagai tambahan saja dan tidak dapat diubah. Melarang koreksi atau pengayaan pada tahap ini. Wajibkan setiap kumpulan data yang masuk untuk diletakkan di bronze terlebih dahulu. Panduan keputusan: Putuskan bahwa perunggu hanya ada untuk mempertahankan kebenaran dari sistem sumber. Terima kegunaan yang lebih lambat dengan imbalan auditabilitas dan keterlacakan.
Tetapkan lapisan perak sebagai tampilan tepercaya. Lapisan perak menyimpan data yang divalidasi, distandarkan, dan dibersihkan yang diandalkan tim untuk analisis yang konsisten. Praktik terbaik: Terapkan aturan kualitas data, perataan format, dan validasi bisnis dasar. Dokumentasikan himpunan data perak dengan jelas dan kelola perubahan melalui proses tata kelola. Panduan keputusan: Pilih perak sebagai lapisan otoritatif yang dibersihkan. Melarang tim untuk mengumpulkan kembali data mentah secara independen, yang menciptakan interpretasi yang bertentangan.
Emas (konteks bisnis, produk data): Sertifikasi himpunan data emas sebagai produk data bisnis. Lapisan emas memberikan produk data yang diatur yang digunakan pemimpin untuk keputusan, pelacakan performa, dan pelaporan. Praktik terbaik: Sejajarkan data emas dengan definisi dan metrik bisnis yang disetujui. Optimalkan struktur untuk konsumsi. Daftarkan setiap himpunan data emas sebagai produk data di Microsoft Purview dengan detail kepemilikan, tujuan, dan refresh. Panduan keputusan: Tentukan bahwa himpunan data apa pun yang digunakan di seluruh tim atau untuk keputusan harus ada dalam emas. Tolak himpunan data yang tidak dikelola atau tidak bersertifikat yang melewati tata kelola.
Buat produk yang disanitasi untuk penggunaan eksternal. Berbagi eksternal memerlukan pemisahan yang disyaratkan dari data operasional internal. Praktik terbaik: Menghasilkan himpunan data yang dikumpulkan yang menghapus atau menutupi bidang sensitif dan mengurangi detail jika diperlukan. Tetapkan kepemilikan dan terapkan label yang jelas, seperti Penggunaan publik atau eksternal. Simpan himpunan data ini di lokasi yang disetujui. Panduan keputusan: Pilih untuk memperlakukan himpunan data eksternal sebagai produk independen. Terima langkah-langkah tata kelola tambahan untuk mengurangi risiko hukum dan keamanan.
Fabric mendukung model ini melalui tampilan danau terwujud yang dapat mengelola transformasi secara otomatis. Lihat Arsitektur Medallion Lakehouse di Fabric. Untuk arsitektur analitik, lihat Analitik End-to-End dengan Microsoft Fabric.
Meja. Contoh arsitektur medali. Lapisan emas menggabungkan data dari dua himpunan data.
| Kumpulan Data | Lapisan | Contoh Data | Apa yang terjadi |
|---|---|---|---|
| Transaksi penjualan | Perunggu | OrderID=984321 · StoreID=17 · Amount="1,200" · TxnDate="2026-01-05T14:32:09Z" | Catatan ini tiba dari sistem penjualan persis sebagaimana dikirim. Jumlah adalah teks. Tanda waktu mengikuti format sistem. Tidak ada arti yang diberikan. |
| Perak | OrderID=984321 · StoreID=17 · Amount=1200.00 · TxnDate=2026-01-05 | Transaksi distandarisasi dan divalidasi. Jumlahnya numerik. Tanggal mengikuti aturan perusahaan. Data sekarang dapat dipercaya. | |
| Referensi Penyimpanan | Perunggu | StoreID="17" · RegionName="EAST " | Catatan ini tiba dari sistem lokasi. Pemformatan mencerminkan sumber. |
| Perak | StoreID=17 · Wilayah=Timur | Pengidentifikasi toko berpadanan dengan data penjualan. Nilai-nilai wilayah dibersihkan dan tetap konsisten. | |
| Pendapatan harian menurut wilayah | Emas | Region=East · Date=2026-01-05 · TotalRevenue=425000 | Nilai ini menggabungkan transaksi penjualan Silver dengan data referensi penyimpanan Silver. Catatan individual dirangkum untuk menjawab pertanyaan bisnis. |
2.3. Pertimbangkan lapisan emas adaptif
Emas Adaptif disertakan di sini sebagai pertimbangan dengan pandangan ke depan. Idenya adalah Anda menggunakan agen AI untuk membuat lapisan emas. Agen dapat mengamati pola yang mungkin tidak dapat Anda lihat. Jika pengguna sering meminta "masalah pelanggan teratas menurut wilayah per bulan," agen AI dapat mewujudkan himpunan data tersebut. Kemampuan ini tidak disediakan secara bawaan di Microsoft Fabric saat ini. Ini akan memerlukan pembangunan agen AI kustom yang beroperasi pada telemetri Fabric dan Power BI.
3. Mengatur standar penerbitan produk data
Standar penerbitan menentukan bagaimana organisasi Anda mengekspos produk data tepercaya melalui Microsoft Fabric OneLake dan Microsoft Purview. Tujuannya adalah untuk menskalakan penggunaan kembali, menerapkan tata kelola, dan mengurangi risiko di seluruh analitik dan beban kerja AI. Rekomendasi: Tetapkan satu standar penerbitan yang membuat setiap produk data yang disetujui dapat ditemukan, diatur, dan ditujukan dengan jelas untuk audiens yang ditentukan sebelum penggunaan luas. Untuk menerapkan rekomendasi ini, gunakan daftar periksa berikut:
Menstandarkan publikasi melalui Katalog OneLake. Katalog OneLake menyediakan permukaan akses terpadu untuk produk data di seluruh Fabric dan platform pemrosesan eksternal, seperti Databricks. Praktik terbaik: Gunakan OneLake sebagai lapisan eksekusi dan konsumsi default untuk semua produk data yang disetujui. Perlakukan Microsoft Purview sebagai sistem catatan untuk tata kelola dan definisi bisnis. Penyelarasan ini memungkinkan Power BI, agen data Fabric, dan Azure AI Search untuk menggunakan data secara konsisten sambil mengaktifkan visibilitas tata kelola terpusat.
Memastikan kemudahan ditemukan. Penemuan memastikan pembuat keputusan dan konsumen dapat menemukan produk data tepercaya tanpa mengandalkan pengetahuan informal. Praktik terbaik: Mengonfigurasi visibilitas ruang kerja Fabric sehingga audiens yang relevan dapat menemukan item. Mereka tidak memerlukan akses, hanya kemampuan untuk meminta akses. Aktifkan alur kerja permintaan akses Purview sehingga pengguna dapat meminta izin langsung dari katalog. Panduan keputusan: Pilih kemudahan penemuan yang luas saat tujuan digunakan kembali di seluruh domain. Pilih penemuan terbatas saat batasan peraturan atau kerahasiaan berlaku. Seimbangkan visibilitas dengan kontrol akses daripada menyembunyikan aset.
Wajibkan pengayaan metadata saat publikasi. Metadata menyediakan konteks yang memungkinkan pemimpin menilai kebugaran, kepercayaan, dan penggunaan kembali produk data. Praktik terbaik: Memerlukan metadata deskriptif saat publikasi. Gunakan tag di Fabric untuk mengklasifikasikan produk berdasarkan domain atau inisiatif bisnis. Pastikan deskripsi menjelaskan tujuan dan cakupan data. Praktik ini mendukung pencarian katalog dan meningkatkan kepercayaan diri dalam penggunaan kembali. Panduan keputusan: Memutuskan apakah persyaratan metadata tetap minimal atau menerapkan skema standar. Pilih skema standar saat organisasi mengoperasikan beberapa domain dan membutuhkan konsistensi. Pilih pendekatan yang lebih ringan untuk tahap kematangan dini.
Mengesahkan dan mensertifikasi saat diperlukan. Tentukan kriteria dukungan dan sertifikasi. Dukungan menandakan tingkat kepercayaan dan kematangan tata kelola kepada organisasi. Praktik terbaik: Gunakan Dipromosikan untuk menunjukkan produk yang direkomendasikan domain. Gunakan Bersertifikat untuk menunjukkan produk yang lulus tinjauan tata kelola formal. Terapkan sertifikasi ke himpunan data Gold yang mendukung pelaporan eksekutif atau analitik penting. Panduan dukungan Reference Fabric di Dukungan. Panduan keputusan: Tentukan produk mana yang memerlukan sertifikasi. Pilih sertifikasi wajib untuk beban kerja eksekutif atau peraturan. Pilih sertifikasi opsional saat kecepatan dan eksperimen diprioritaskan. Terima onboarding yang lebih lambat sebagai tradeoff untuk kepercayaan yang lebih tinggi.
Terbitkan sebagai produk data di Purview. Produk data Purview memberikan tampilan tingkat yang lebih tinggi yang mengelompokkan aset ke dalam siklus hidup produk terkelola. Praktik terbaik: Buat entri produk data Purview untuk setiap produk data yang diterbitkan. Sertakan nama produk, deskripsi, pemilik, status kualitas, dan aset terkait, seperti tabel, model, dan laporan. Rujuk Produk Data dalam Katalog Terpadu. Panduan keputusan: Tentukan apakah produk data Purview diperlukan untuk semua aset yang diterbitkan atau hanya untuk produk strategis. Pilih cakupan penuh saat visibilitas portofolio penting. Pilih cakupan selektif saat kapasitas tata kelola terbatas.
Deklarasikan audiens dan penggunaan yang dimaksudkan. Niat yang jelas mencegah penyalahgunaan dan mendukung kepatuhan di seluruh skenario analitik dan AI. Praktik terbaik: Mengharuskan setiap produk data untuk menyatakan audiens yang dimaksudkan dan jenis beban kerja yang didukung. Tentukan penggunaan internal, mitra, atau publik. Identifikasi skenario AI, analitik, BI, atau situs web publik. Gunakan metadata Purview, istilah glosarium, dan label sensitivitas secara bersama-sama untuk menyatakan maksud ini dengan konsisten. Panduan keputusan: Tentukan apakah penggunaan eksternal atau agen memerlukan persetujuan tambahan. Pilih persetujuan yang lebih ketat saat data meninggalkan batas organisasi. Terima publikasi yang lebih lambat sebagai tradeoff untuk mengurangi risiko.