Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Tip
Power BI Dataflow Gen1 sekarang dalam status warisan dan tidak akan menerima investasi fitur baru. Untuk pelanggan Premium dengan akses Fabric, Dataflow Gen2 adalah jalur yang direkomendasikan, menawarkan peningkatan performa, skala, keandalan, fungsionalitas, dan AI bawaan. Pelanggan Pro/PPU dapat terus menggunakan Gen1 karena panduan untuk Gen2 dalam skenario ini masih berkembang. Lihat Meningkatkan dari Dataflow Gen1 ke Dataflow Gen2 untuk panduan peningkatan.
Merancang model dimensi adalah salah satu tugas paling umum yang dapat Anda lakukan dengan aliran data. Artikel ini menyoroti beberapa praktik terbaik untuk membuat model dimensi menggunakan aliran data.
Aliran data penyiapan
Salah satu poin utama dalam sistem integrasi data apa pun adalah mengurangi jumlah bacaan dari sistem operasional sumber. Dalam arsitektur integrasi data tradisional, pengurangan ini dilakukan dengan membuat database baru yang disebut database penahapan . Tujuan database penahapan adalah untuk memuat data as-is dari sumber data ke dalam database penahapan pada jadwal reguler.
Integrasi data lainnya kemudian menggunakan database penahapan sebagai sumber untuk transformasi lebih lanjut dan mengonversinya ke struktur model dimensi.
Kami menyarankan agar Anda mengikuti pendekatan yang sama menggunakan aliran data. Buat sekumpulan aliran data yang bertanggung jawab untuk hanya memuat data as-is dari sistem sumber (dan hanya untuk tabel yang Anda butuhkan). Hasilnya kemudian disimpan dalam struktur penyimpanan aliran data (baik Azure Data Lake Storage atau Dataverse). Perubahan ini memastikan bahwa operasi baca dari sistem sumber tetap minimal.
Selanjutnya, Anda dapat membuat aliran data lain yang datanya bersumber dari aliran data penahapan. Manfaat dari pendekatan ini meliputi:
- Mengurangi jumlah operasi baca dari sistem sumber, dan mengurangi beban pada sistem sumber sebagai hasilnya.
- Mengurangi beban pada gateway data jika sumber data lokal digunakan.
- Memiliki salinan perantara data untuk tujuan rekonsiliasi, jika data sistem sumber berubah.
- Membuat aliran data transformasi tidak bergantung pada sumber.
Diagram menekankan aliran data staging dan penyimpanan staging. Diagram menunjukkan data yang diakses dari sumber data oleh aliran data penahapan, dan tabel disimpan di Cadavers atau Azure Data Lake Storage. Tabel kemudian ditampilkan ditransformasikan bersama dengan aliran data lainnya, yang kemudian dikirim sebagai permintaan.
Transformasi aliran data
Saat Anda memisahkan aliran data transformasi dari aliran data penahapan, transformasi tidak bergantung pada sumbernya. Pemisahan ini membantu jika Anda memigrasikan sistem sumber ke sistem baru. Yang perlu Anda lakukan dalam hal ini adalah mengubah aliran data penahapan. Aliran data transformasi kemungkinan berfungsi tanpa masalah karena hanya bersumber dari aliran data penahapan.
Pemisahan ini juga membantu jika koneksi sistem sumber lambat. Aliran data transformasi tidak perlu menunggu lama untuk mendapatkan rekaman yang masuk melalui koneksi lambat dari sistem sumber. Aliran data penahapan sudah melakukan bagian tersebut, dan data siap untuk lapisan transformasi.
Arsitektur Berlapis
Arsitektur berlapis adalah arsitektur tempat Anda melakukan tindakan di lapisan terpisah. Aliran data penahapan dan transformasi dapat berupa dua lapisan arsitektur aliran data berlapis. Upaya untuk melakukan tindakan pada lapisan tertentu menjamin pemeliharaan minimum yang diperlukan. Ketika Anda ingin mengubah sesuatu, Anda hanya perlu mengubahnya di lapisan tempatnya berada. Lapisan lainnya semuanya harus terus berfungsi dengan baik.
Gambar berikut menunjukkan arsitektur multilapis untuk aliran data tempat tabelnya kemudian digunakan dalam model semantik Power BI.
Gunakan tabel komputasi sebanyak mungkin
Saat Anda menggunakan hasil aliran data di aliran data lain, Anda menggunakan konsep tabel komputasi, yang berarti mendapatkan data dari tabel "sudah diproses dan disimpan". Hal yang sama dapat terjadi di dalam aliran data. Saat mengacu pada tabel dari tabel lain, Anda bisa menggunakan tabel perhitungan. Metode ini berguna ketika Anda memiliki serangkaian transformasi yang perlu dilakukan dalam beberapa tabel, yang disebut transformasi umum.
Pada gambar sebelumnya, tabel komputasi mendapatkan data langsung dari sumbernya. Namun, dalam arsitektur aliran data penahapan dan transformasi, kemungkinan besar tabel komputasi berasal dari aliran data penahapan.
Membangun skema bintang
Model dimensi terbaik adalah model skema bintang yang memiliki dimensi dan tabel fakta yang dirancang dengan cara untuk meminimalkan jumlah waktu untuk mengkueri data dari model. Model skema bintang juga memudahkan untuk dipahami untuk visualizer data.
Tidak ideal untuk membawa data dalam tata letak sistem operasional yang sama ke dalam sistem BI. Tabel data harus direnovasi. Beberapa tabel harus berbentuk tabel dimensi, yang menyimpan informasi deskriptif. Beberapa tabel harus berbentuk tabel fakta, untuk menyimpan data yang dapat diagregasi. Tata letak terbaik untuk membentuk tabel fakta dan tabel dimensi adalah menggunakan skema bintang. Untuk informasi selengkapnya, buka Memahami skema bintang dan pentingnya Power BI.
Menggunakan nilai kunci unik untuk dimensi
Saat membuat tabel dimensi, pastikan Anda memiliki kunci untuk masing-masing tabel. Kunci ini menjamin bahwa tidak ada hubungan banyak-ke-banyak (atau dalam arti lain, "lemah") di antara dimensi. Anda dapat membuat kunci dengan menerapkan beberapa transformasi untuk memastikan kolom atau kombinasi kolom mengembalikan baris unik dalam dimensi. Kemudian kombinasi kolom tersebut dapat ditandai sebagai kunci dalam tabel dalam aliran data.
Lakukan refresh inkremental untuk tabel fakta besar
Tabel fakta selalu merupakan tabel terbesar dalam model dimensi. Kami menyarankan agar Anda mengurangi jumlah baris yang ditransfer untuk tabel ini. Jika Anda memiliki tabel fakta yang sangat besar, pastikan Anda menggunakan refresh inkremental untuk tabel tersebut. Refresh bertahap dapat dilakukan dalam model semantik Power BI, dan juga tabel aliran data.
Anda dapat menggunakan refresh inkremental untuk me-refresh hanya sebagian data, bagian yang berubah. Ada beberapa opsi untuk memilih bagian mana dari data yang akan di-refresh dan bagian mana yang akan dipertahankan. Untuk informasi selengkapnya, buka Menggunakan refresh bertahap dengan aliran data Power BI.
Mereferensikan untuk membuat dimensi dan tabel fakta
Dalam sistem sumber, Anda sering memiliki tabel yang Anda gunakan untuk menghasilkan tabel fakta dan dimensi di gudang data. Tabel ini adalah kandidat yang baik untuk tabel komputasi dan juga aliran data menengah. Bagian umum dari proses—seperti pembersihan data, dan menghapus baris dan kolom tambahan—dapat dilakukan sekali. Dengan menggunakan referensi dari output tindakan tersebut, Anda dapat menghasilkan tabel dimensi dan fakta. Pendekatan ini menggunakan tabel komputasi untuk transformasi umum.