Bagikan melalui


Skenario penggunaan Power BI: Persiapan data tingkat lanjut

Catatan

Artikel ini merupakan bagian dari rangkaian artikel Perencanaan implementasi Power BI. Seri ini berfokus terutama pada pengalaman Power BI dalam Microsoft Fabric. Untuk pengantar rangkaian ini, lihat Perencanaan implementasi Power BI.

Persiapan data (terkadang disebut sebagai ETL, yang merupakan akronim dari aktivitas Ekstraksi, Transformasi, dan Pemuatan) sering kali melibatkan upaya besar. Waktu, keterampilan, dan upaya yang terlibat dengan pengumpulan, pembersihan, penggabungan, dan pengayaan data bergantung pada kualitas dan struktur data sumber.

Menginvestasikan waktu dan upaya dalam persiapan data terpusat membantu:

  • Meningkatkan penggunaan kembali dan mendapatkan nilai maksimum dari upaya persiapan data.
  • Meningkatkan kemampuan untuk memberikan data yang konsisten kepada beberapa tim.
  • Mengurangi tingkat upaya yang diperlukan oleh pembuat konten lain.
  • Mencapai skala dan performa.

Skenario penggunaan persiapan data tingkat lanjut diperluas pada skenario persiapan data layanan mandiri. Persiapan data tingkat lanjut adalah tentang meningkatkan penggunaan kembali aliran data oleh beberapa pengguna di berbagai tim dan untuk berbagai kasus penggunaan.

Ruang kerja terpisah, yang diatur oleh tujuan aliran data, sangat membantu ketika output aliran data disediakan untuk beberapa pembuat model semantik (sebelumnya dikenal sebagai himpunan data), terutama ketika mereka berada di tim yang berbeda dalam organisasi. Ruang kerja terpisah juga berguna untuk mengelola peran keamanan ketika orang-orang yang membuat dan mengelola aliran data berbeda dari orang yang menggunakannya.

Catatan

Skenario persiapan data tingkat lanjut adalah skenario persiapan data kedua. Skenario ini dibangun berdasarkan apa yang dapat dilakukan dengan aliran data terpusat seperti yang dijelaskan dalam skenario persiapan data layanan mandiri.

Skenario penyiapan data tingkat lanjut adalah salah satu skenario BI layanan mandiri. Namun, anggota tim terpusat dapat menggunakan teknik dengan cara yang sama dengan apa yang dijelaskan dalam skenario BI layanan mandiri terkelola. Untuk daftar lengkap skenario penggunaan layanan mandiri, lihat artikel skenario penggunaan Power BI.

Singkatnya, beberapa aspek yang dijelaskan dalam topik kolaborasi konten dan skenario pengiriman tidak dibahas dalam artikel ini. Untuk cakupan lengkap, baca artikel tersebut terlebih dahulu.

Diagram skenario

Tip

Sebaiknya tinjau skenario penggunaan persiapan data layanan mandiri jika Anda tidak terbiasa dengannya. Skenario persiapan data layanan mandiri tingkat lanjut dibangun berdasarkan skenario tersebut.

Fokus skenario persiapan data tingkat lanjut ini adalah pada:

  • Penggunaan aliran data terpisah berdasarkan tujuan: pentahapan, transformasi, atau akhir. Sebaiknya gunakan blok penyusun yang dapat disusun untuk mendapatkan penggunaan kembali yang lebih besar, dalam berbagai kombinasi, untuk mendukung persyaratan pengguna tertentu. Blok penyusun yang dapat disusun dijelaskan nanti dalam artikel ini.
  • Penggunaan ruang kerja terpisah yang mendukung pembuat aliran data atau konsumen aliran data. Pemodel data, yang menggunakan aliran data, mungkin berada di tim yang berbeda dan/atau memiliki kasus penggunaan yang berbeda.
  • Penggunaan tabel tertaut (juga dikenal sebagai entitas tertaut), tabel komputasi (juga dikenal sebagai entitas komputasi), dan mesin komputasi yang disempurnakan.

Catatan

Terkadang istilah model semantik dan model data digunakan secara bergantian. Umumnya, dari perspektif layanan Power BI, itu disebut sebagai model semantik. Dari perspektif pengembangan, hal itu disebut sebagai model data (atau singkatnya model). Dalam artikel ini, kedua istilah memiliki arti yang sama. Demikian pula, pembuat model semantik dan pemodel data memiliki arti yang sama.

Diagram berikut menggambarkan ringkasan umum tentang tindakan pengguna yang paling umum dan komponen Power BI yang mendukung skenario persiapan data tingkat lanjut.

Diagram menunjukkan persiapan data tingkat lanjut, yaitu tentang meningkatkan jangkauan dan penggunaan kembali aliran data. Item dalam diagram dijelaskan dalam tabel di bawah ini.

Tip

Kami mendorong Anda untuk mengunduh diagram skenario jika Anda ingin menyematkannya dalam presentasi, dokumentasi, atau posting blog Anda—atau mencetaknya sebagai poster dinding. Karena ini adalah gambar Scalable Vector Graphics (SVG), Anda dapat meningkatkan atau menurunkan skalanya tanpa kehilangan kualitas.

Diagram skenario menggambarkan tindakan, alat, dan fitur pengguna berikut:

Benda Keterangan
Item 1. Pembuat aliran data mengembangkan kumpulan tabel dalam aliran data. Untuk aliran data yang ditujukan untuk digunakan kembali, biasanya (tetapi tidak wajib) pembuatnya termasuk dalam tim terpusat yang mendukung pengguna di seluruh batas organisasi (seperti IT, BI perusahaan, atau Center of Excellence).
Item 2. Aliran data terhubung ke data dari satu atau beberapa sumber data.
Item 3. Beberapa sumber data mungkin memerlukan gateway data lokal atau gateway VNet untuk refresh data, seperti yang berada dalam jaringan organisasi privat. Gateway ini digunakan baik untuk menulis aliran data di Power Query Online dan me-refresh aliran data.
Item 4. Semua ruang kerja yang terlibat memiliki mode lisensi yang diatur ke kapasitas Fabric, kapasitas Premium, Premium Per Pengguna, atau Tersemat. Mode lisensi ini memungkinkan penggunaan tabel tertaut dan tabel komputasi di seluruh ruang kerja, yang diperlukan dalam skenario ini.
Item 5. Pembuat aliran data mengembangkan aliran data dengan menggunakan Power Query Online, yang merupakan versi Power Query berbasis web.
Item 6. Aliran data pentahapan dibuat di ruang kerja yang didedikasikan untuk manajemen aliran data terpusat. Aliran data pentahapan menyalin data mentah apa adanya dari sumbernya. Beberapa, jika ada, transformasi diterapkan.
Item 7. Aliran data transformasi (juga dikenal sebagai aliran data yang dibersihkan) dibuat di ruang kerja yang sama. Aliran ini mengambil sumber data dengan menggunakan tabel tertaut ke aliran data penahapan. Tabel komputasi mencakup langkah-langkah transformasi yang menyiapkan, membersihkan, dan membentuk ulang data.
Item 8. Pembuat aliran data memiliki akses untuk mengelola konten di ruang kerja yang didedikasikan untuk manajemen aliran data terpusat.
Item 9. Ada satu atau beberapa ruang kerja lain yang dimaksudkan untuk menyediakan akses ke aliran data akhir, yang mengirimkan data siap produksi ke model data.
Item 10. Aliran data akhir dibuat di ruang kerja yang tersedia untuk pemodel data. Aliran ini mengambil sumber data dengan menggunakan tabel tertaut ke aliran data transformasi. Tabel komputasi mewakili output yang disiapkan yang terlihat oleh pemodel data yang diberikan peran penampil ruang kerja.
Item 11. Pembuat model semantik (yang menggunakan output aliran data) memiliki akses penampil ke ruang kerja yang berisi output aliran data akhir. Pembuat aliran data juga memiliki akses untuk mengelola dan menerbitkan konten di ruang kerja (tidak digambarkan dalam diagram skenario).
Item 12. Pembuat model semantik menggunakan aliran data akhir sebagai sumber data saat mengembangkan model data di Power BI Desktop. Jika sudah siap, pembuat model semantik menerbitkan file Power BI Desktop (.pbix) yang berisi model data ke layanan Power BI (tidak digambarkan dalam diagram skenario).
Item 13. Administrator Fabric mengelola pengaturan di portal Admin.
Item 14. Di portal Admin, administrator Power BI dapat menyiapkan koneksi Azure untuk menyimpan data aliran data di akun Azure Data Lake Storage Gen2 (ADLS Gen2) mereka. Pengaturan mencakup menetapkan akun penyimpanan tingkat penyewa dan mengaktifkan izin penyimpanan tingkat ruang kerja.
Item 15. Secara default, aliran data menyimpan data dengan menggunakan penyimpanan internal yang dikelola oleh layanan Power BI. Secara opsional, output data oleh aliran data dapat disimpan di akun ADLS Gen2 organisasi.
Item 16. Administrator Fabric mengawasi dan memantau aktivitas di portal Fabric.

Poin-poin penting

Berikut ini adalah beberapa poin penting untuk ditekankan tentang skenario persiapan data tingkat lanjut.

Aliran data

Aliran data terdiri dari kumpulan tabel (juga dikenal sebagai entitas). Setiap tabel ditentukan oleh kueri, yang berisi langkah-langkah persiapan data yang diperlukan untuk memuat tabel dengan data. Semua pekerjaan untuk membuat aliran data dilakukan di Power Query Online. Anda dapat membuat aliran data di beberapa produk, termasuk Power Apps, Dynamics 365 Customer Insights, dan Power BI.

Catatan

Anda tidak dapat membuat aliran data di ruang kerja pribadi di layanan Power BI.

Jenis aliran data

Penggunaan blok penyusun yang dapat disusun adalah prinsip desain yang memungkinkan Anda mengelola, menyebarkan, dan mengamankan komponen sistem, lalu menggunakannya dalam berbagai kombinasi. Membuat aliran data modular dan mandiri yang khusus untuk tujuan adalah praktik terbaik. Aliran data tersebut membantu mencapai penggunaan kembali data dan skala perusahaan. Aliran data modular juga lebih mudah dikelola dan diuji.

Tiga jenis aliran data ditunjukkan dalam diagram skenario: aliran data pentahapan, aliran data transformasi, dan aliran data akhir.

Aliran data pentahapan

Aliran data pentahapan (terkadang disebut aliran data ekstraksi data) menyalin data mentah apa adanya dari sumbernya. Memiliki data mentah yang diekstrak dengan transformasi minimal berarti bahwa aliran data transformasi hilir (dijelaskan berikutnya) dapat menggunakan aliran data pentahapan sebagai sumbernya. Modularitas ini berguna ketika:

  • Akses ke sumber data dibatasi untuk mempersempit jendela waktu dan/atau ke beberapa pengguna.
  • Konsistensi temporal diinginkan untuk memastikan bahwa semua aliran data hilir (dan model semantik terkait) mengirimkan data yang diekstrak dari sumber data secara bersamaan.
  • Mengurangi jumlah kueri yang dikirimkan ke sumber data diperlukan karena pembatasan sistem sumber atau kemampuannya untuk mendukung kueri analitik.
  • Salinan data sumber berguna untuk proses rekonsiliasi dan verifikasi kualitas data.

Aliran data transformasi

Aliran data transformasi (terkadang disebut aliran data yang dibersihkan) mengambil sumber datanya dari tabel tertaut yang tersambung ke aliran data pentahapan. Tindakan ini adalah praktik terbaik untuk memisahkan transformasi dari proses ekstraksi data.

Aliran data transformasi mencakup semua langkah transformasi yang diperlukan untuk menyiapkan dan merestrukturisasi data. Namun, masih ada fokus pada penggunaan kembali pada lapisan ini untuk memastikan aliran data cocok untuk beberapa kasus dan tujuan penggunaan.

Aliran data akhir

Aliran data akhir mewakili output yang disiapkan. Beberapa transformasi tambahan mungkin terjadi berdasarkan kasus dan tujuan penggunaan. Untuk analitik, tabel skema bintang (dimensi atau fakta) adalah desain pilihan dari aliran data akhir.

Tabel komputasi terlihat oleh pemodel data yang diberikan peran penampil ruang kerja. Jenis tabel ini dijelaskan dalam topik jenis tabel aliran data di bawah ini.

Catatan

Data lake sering memiliki zona, seperti perunggu, perak, dan emas. Tiga jenis aliran data mewakili pola desain yang sama. Untuk membuat keputusan arsitektur data yang terbaik, berikan ide kepada orang yang akan mengelola data, ekspektasi penggunaan data, dan tingkat keterampilan yang diperlukan oleh orang-orang yang mengakses data.

Ruang kerja untuk aliran data

Jika Anda ingin membuat semua aliran data dalam satu ruang kerja,tindakan itu akan secara signifikan membatasi jangkauan penggunaan kembali. Menggunakan satu ruang kerja juga membatasi opsi keamanan yang tersedia saat mendukung beberapa jenis pengguna di seluruh tim dan/atau untuk kasus penggunaan yang berbeda. Sebaiknya gunakan beberapa ruang kerja. Mereka memberikan fleksibilitas yang lebih baik ketika Anda perlu mendukung pembuat layanan mandiri dari berbagai bidang organisasi.

Dua jenis ruang kerja yang ditunjukkan dalam diagram skenario meliputi:

  • Ruang kerja 1: Ini menyimpan aliran data yang dikelola secara terpusat (terkadang disebut sebagai ruang kerja backend). Ruang kerja ini berisi aliran data pentahapan dan transformasi karena dikelola oleh orang yang sama. Pembuat aliran data sering kali berasal dari tim terpusat, seperti IT, BI, atau Center of Excellence. Mereka harus ditetapkan ke peran admin, anggota, atau kontributor ruang kerja.
  • Ruang kerja 2: Ini menyimpan dan mengirimkan output aliran data akhir kepada konsumen data (terkadang disebut sebagai ruang kerja pengguna). Pembuat model semantik seringkali merupakan analis layanan mandiri, pengguna daya, atau insinyur data warga negara. Mereka harus ditetapkan ke peran penampil ruang kerja karena mereka hanya perlu menggunakan output aliran data akhir. Untuk mendukung pembuat model semantik dari berbagai area organisasi, Anda dapat membuat banyak ruang kerja seperti ini, berdasarkan kebutuhan kasus penggunaan dan keamanan.

Tip

Sebaiknya tinjau cara untuk mendukung pembuat model semantik seperti yang dijelaskan dalam skenario penggunaan persiapan data layanan mandiri. Penting untuk dipahami bahwa pembuat model semantik masih dapat menggunakan kemampuan penuh Power Query dalam Power BI Desktop. Mereka dapat memilih untuk menambahkan langkah-langkah kueri untuk mengubah data aliran data lebih lanjut atau menggabungkan output aliran data dengan sumber lain.

Jenis tabel aliran data

Tiga jenis tabel aliran data (juga dikenal sebagai entitas) digambarkan dalam diagram skenario.

  • Tabel standar: Mengkueri sumber data eksternal, seperti database. Dalam diagram skenario, tabel standar digambarkan dalam aliran data pentahapan.
  • Tabel tertaut: Mereferensikan tabel dari aliran data lain. Tabel tertaut tidak menduplikasi data. Sebaliknya, tabel ini memungkinkan penggunaan kembali tabel standar beberapa kali untuk beberapa tujuan. Tabel tertaut tidak terlihat oleh penampil ruang kerja karena mereka mewarisi izin dari aliran data asli. Dalam diagram skenario, tabel tertaut digambarkan dua kali:
    • Dalam aliran data transformasi untuk mengakses data dalam aliran data pentahapan.
    • Di aliran data akhir untuk mengakses data dalam aliran data transformasi.
  • Tabel komputasi: Melakukan komputasi tambahan dengan menggunakan aliran data yang berbeda sebagai sumbernya. Tabel komputasi memungkinkan penyesuaian output sesuai kebutuhan untuk kasus penggunaan individual. Dalam diagram skenario, tabel komputasi digambarkan dua kali:
    • Dalam aliran data transformasi untuk melakukan transformasi umum.
    • Dalam aliran data akhir untuk memberikan output kepada pembuat model semantik. Karena tabel komputasi mempertahankan data lagi (setelah refresh aliran data), pemodel data dapat mengakses tabel komputasi di aliran data akhir. Dalam hal ini, pemodel data harus diberikan akses dengan peran penampil ruang kerja.

Catatan

Ada banyak teknik desain, pola, dan praktik terbaik yang dapat mengubah aliran data dari layanan mandiri ke siap untuk perusahaan. Selain itu, aliran data di ruang kerja yang memiliki mode lisensinya yang diatur ke Premium per pengguna atau kapasitas Premium dapat memperoleh manfaat dari fitur tingkat lanjut. Tabel tertaut dan tabel komputasi (juga dikenal sebagai entitas) adalah dua fitur canggih yang penting untuk meningkatkan penggunaan kembali aliran data.

Mesin komputasi yang disempurnakan

Mesin komputasi yang disempurnakan adalah fitur canggih yang tersedia dengan Power BI Premium.

Penting

Terkadang artikel ini mengacu pada Power BI Premium atau langganan kapasitasnya (SKU P). Ketahuilah bahwa Microsoft saat ini mengonsolidasikan opsi pembelian dan menghentikan SKU Power BI Premium per kapasitas. Pelanggan baru dan yang sudah ada harus mempertimbangkan untuk membeli langganan kapasitas Fabric (F SKU) sebagai gantinya.

Untuk informasi selengkapnya, lihat Pembaruan penting yang masuk ke lisensi Power BI Premium dan Tanya Jawab Umum Power BI Premium.

Mesin komputasi yang disempurnakan meningkatkan performa tabel tertaut (dalam ruang kerja yang sama) yang mereferensikan (menautkan ke) aliran data. Untuk mendapatkan manfaat maksimum dari mesin komputasi yang disempurnakan:

  • Pisahkan aliran data pentahapan dan transformasi.
  • Gunakan ruang kerja yang sama untuk menyimpan aliran data pentahapan dan transformasi.
  • Terapkan operasi kompleks yang dapat mengkueri lipatan di awal langkah-langkah kueri. Memprioritaskan operasi yang dapat dilipat dapat membantu mencapai performa refresh terbaik.
  • Gunakan refresh bertahap untuk mengurangi durasi refresh dan konsumsi sumber daya.
  • Lakukan pengujian lebih awal dan dengan sering selama fase pengembangan.

Aliran data dan refresh model semantik

Aliran data adalah sumber data untuk model semantik. Dalam kebanyakan kasus, beberapa jadwal refresh data terlibat: satu untuk setiap aliran data dan satu untuk setiap model semantik. Atau, Dimungkinkan untuk menggunakan DirectQuery dari model semantik ke aliran data, yang memerlukan Power BI Premium dan mesin komputasi yang ditingkatkan (tidak digambarkan dalam diagram skenario).

Azure Data Lake Storage Gen2

Akun ADLS Gen2 adalah jenis akun penyimpanan Azure spesifik yang mengaktifkan namespace hierarkis. ADLS Gen2 memiliki manfaat performa, manajemen, dan keamanan untuk mengoperasikan beban kerja analitik. Secara default, aliran data Power BI menggunakan penyimpanan internal, yang merupakan akun data lake bawaan yang dikelola oleh layanan Power BI. Secara opsional, organisasi dapat membawa data lake mereka sendiri dengan menyambungkan ke akun ADLS Gen2 di organisasi mereka.

Berikut adalah beberapa keuntungan menggunakan data lake Anda sendiri:

  • Pengguna (atau proses) dapat langsung mengakses data aliran data yang disimpan di data lake. Hal itu berguna ketika penggunaan kembali aliran data terjadi di luar Power BI. Misalnya, Azure Data Factory dapat mengakses data aliran data.
  • Alat atau sistem lain dapat mengelola data di data lake. Dalam hal ini, Power BI dapat menggunakan data alih-alih mengelolanya (tidak digambarkan dalam diagram skenario).

Saat menggunakan tabel tertaut atau tabel komputasi, pastikan setiap ruang kerja ditetapkan ke akun penyimpanan ADLS Gen2 yang sama.

Catatan

Data aliran data di ADLS Gen2 disimpan dalam kontainer khusus Power BI. Kontainer ini digambarkan dalam diagram skenario penggunaan persiapan data layanan mandiri.

Pengaturan portal admin

Ada dua pengaturan penting untuk dikelola di portal Admin:

  • Koneksi Azure: Bagian koneksi Azure dari portal Admin mencakup pengaturan untuk menyiapkan koneksi ke akun ADLS Gen2. Pengaturan ini memungkinkan administrator Power BI untuk membawa data lake Anda sendiri ke aliran data. Setelah dikonfigurasi, ruang kerja dapat menggunakan akun data lake tersebut untuk penyimpanan.
  • Penyimpanan tingkat ruang kerja: Administrator Power BI dapat mengatur izin penyimpanan tingkat ruang kerja. Saat diaktifkan, pengaturan memungkinkan administrator ruang kerja untuk menggunakan akun penyimpanan yang berbeda dengan yang diatur di tingkat penyewa. Mengaktifkan pengaturan ini sangat membantu untuk unit bisnis terdesentralisasi yang mengelola data lake mereka sendiri di Azure.

Penyetelan gateway

Biasanya, Gateway data lokal diperlukan untuk menghubungkan sumber data yang berada dalam jaringan organisasi privat atau jaringan virtual.

Gateway data diperlukan saat:

  • Menulis aliran data di Power Query Online yang terhubung ke data organisasi privat.
  • Me-refresh aliran data yang terhubung ke data organisasi privat.

Tip

Aliran data memerlukan gateway data terpusat dalam mode standard (standar). Gateway dalam mode personal (pribadi) tidak didukung saat bekerja dengan aliran data.

Pengawasan sistem

Log aktivitas merekam aktivitas pengguna yang terjadi di layanan Power BI. Administrator Power BI dapat menggunakan data log aktivitas yang dikumpulkan untuk menjalankan audit guna membantu mereka memahami pola penggunaan dan adopsi. Log aktivitas juga berharga untuk mendukung upaya tata kelola, audit keamanan, dan persyaratan kepatuhan. Dalam skenario persiapan data tingkat lanjut, data log aktivitas sangat membantu untuk melacak manajemen dan penggunaan aliran data.

Untuk skenario berguna lainnya untuk membantu Anda dengan keputusan implementasi Power BI, lihat artikel skenario penggunaan Power BI.