Bagikan melalui


Skenario penggunaan Power BI: Persiapan data layanan mandiri

Catatan

Artikel ini merupakan bagian dari rangkaian artikel Perencanaan implementasi Power BI. Seri ini berfokus terutama pada pengalaman Power BI dalam Microsoft Fabric. Untuk pengantar rangkaian ini, lihat Perencanaan implementasi Power BI.

Persiapan data (terkadang disebut sebagai ETL, yang merupakan akronim dari Extract, Transform, and Load (Ekstraksi, Transformasi, dan Pemuatan)) sering melibatkan sejumlah besar tugas, tergantung pada kualitas dan struktur data sumber. Skenario penggunaan persiapan data layanan mandiri berfokus pada penggunaan kembali aktivitas persiapan data oleh analis bisnis. Skenario ini mencapai tujuan penggunaan kembali dengan merelokasi tugas persiapan data dari Power Query (dalam file Power BI Desktop individu) ke Power Query Online (menggunakan aliran data Power BI). Pemusatan logika membantu mencapai satu sumber kebenaran dan mengurangi tingkat upaya yang diperlukan oleh pembuat konten lainnya.

Aliran data dibuat menggunakan Power Query Online di salah satu dari beberapa alat: layanan Power BI, Power Apps, atau Dynamics 365 Customer Insights. Aliran data yang dibuat di Power BI disebut sebagai aliran data analytical (analitis). Aliran data yang dibuat di Power Apps dapat berupa salah satu dari dua jenis: standard (standar) atau analytical (analitik). Skenario ini hanya mencakup penggunaan aliran data Power BI yang dibuat dan dikelola dalam layanan Power BI.

Catatan

Skenario penyiapan data layanan mandiri adalah salah satu skenario BI layanan mandiri. Untuk daftar lengkap skenario penggunaan layanan mandiri, lihat artikel skenario penggunaan Power BI.

Singkatnya, beberapa aspek yang dijelaskan dalam topik kolaborasi konten dan skenario pengiriman tidak dibahas dalam artikel ini. Untuk cakupan lengkap, baca artikel tersebut terlebih dahulu.

Diagram skenario

Diagram berikut menggambarkan gambaran umum tingkat tinggi tentang tindakan pengguna yang paling umum dan komponen Power BI yang mendukung persiapan data layanan mandiri. Fokus utama adalah membuat aliran data di Power Query Online yang menjadi sumber data untuk beberapa model semantik (sebelumnya dikenal sebagai himpunan data). Tujuannya adalah untuk banyak model semantik untuk memanfaatkan persiapan data yang dilakukan sekali oleh aliran data.

Diagram menunjukkan persiapan data layanan mandiri, yaitu tentang aliran data untuk memusatkan pekerjaan pembersihan dan transformasi data. Item dalam diagram dijelaskan dalam tabel di bawah ini.

Tip

Kami mendorong Anda untuk mengunduh diagram skenario jika Anda ingin menyematkannya dalam presentasi, dokumentasi, atau posting blog Anda—atau mencetaknya sebagai poster dinding. Karena ini adalah gambar Scalable Vector Graphics (SVG), Anda dapat meningkatkan atau menurunkan skalanya tanpa kehilangan kualitas.

Diagram skenario menggambarkan tindakan, alat, dan fitur pengguna berikut:

Benda Keterangan
Item 1. Pembuat aliran data mengembangkan kumpulan tabel dalam aliran data Power BI. Bagi himpunan data yang ditujukan untuk digunakan kembali, merupakan hal umum (tetapi tidak diperlukan) bagi pembuat untuk masuk ke tim terpusat yang mendukung pengguna di seluruh batas organisasi (seperti IT, BI perusahaan, atau Center of Excellence).
Item 2. Aliran data terhubung ke data dari satu atau beberapa sumber data.
Item 3. Beberapa sumber data mungkin memerlukan gateway data lokal atau gateway VNet untuk refresh data, seperti yang berada dalam jaringan organisasi privat. Gateway ini digunakan baik untuk menulis aliran data di Power Query Online, yang merupakan versi Power Query berbasis web, dan me-refresh aliran data.
Item 4. Aliran data dikembangkan menggunakan Power Query Online. Antarmuka Power Query yang sudah dikenal di Power Query Online membuat transisi dari Power BI Desktop menjadi sederhana.
Item 5. Aliran data disimpan sebagai item di ruang kerja yang didedikasikan untuk menyimpan dan mengamankan aliran data. Jadwal refresh aliran data diperlukan untuk menjaga data tetap terbaru (tidak digambarkan dalam diagram skenario).
Item 6. Aliran data dapat digunakan kembali sebagai sumber data oleh pembuat konten, dan oleh model semantik lainnya yang dapat berada di ruang kerja yang berbeda.
Item 7. Pembuat model semantik mengembangkan model data baru dengan menggunakan Power BI Desktop. Pembuat model semantik dapat menggunakan kemampuan penuh Power Query dalam Power BI Desktop. Mereka dapat secara opsional menerapkan langkah-langkah kueri lain untuk mengubah lebih lanjut data aliran data atau menggabungkan output aliran data.
Item 8. Jika sudah siap, pembuat model semantik menerbitkan file Power BI Desktop (.pbix) yang berisi model data ke layanan Power BI. Refresh untuk model semantik dikelola secara terpisah dari aliran data (tidak digambarkan dalam diagram skenario).
Item 9. Pembuat model semantik layanan mandiri lainnya dapat membuat model data baru di Power BI Desktop dengan menggunakan aliran data sebagai sumber data.
Item 10. Di portal Admin, administrator Power BI dapat menyiapkan koneksi Azure untuk menyimpan data aliran data di akun Azure Data Lake Storage Gen2 (ADLS Gen2) mereka. Pengaturan mencakup menetapkan akun penyimpanan tingkat penyewa dan mengaktifkan izin penyimpanan tingkat ruang kerja.
Item 11. Administrator Power BI mengelola pengaturan di Admin portal (Portal admin).
Item 12. Secara default, aliran data menyimpan data dengan menggunakan penyimpanan internal yang dikelola oleh layanan Power BI. Secara opsional, output data oleh aliran data dapat disimpan di akun ADLS Gen2 organisasi. Jenis penyimpanan ini terkadang disebut bring your own data lake (bawa data lake Anda sendiri). Manfaat menyimpan data aliran data di data lake adalah data dapat diakses dan dikonsumsi oleh alat BI lainnya.
Item 13. Data aliran data di ADLS Gen2 disimpan dalam kontainer khusus Power BI yang disebut sebagai filesystem. Dalam kontainer ini, folder ada untuk setiap ruang kerja. Subfolder dibuat untuk setiap aliran data, serta untuk setiap tabel. Power BI menghasilkan rekam jepret setiap kali data aliran data di-refresh. Rekam jepret menjelaskan dirinya sendiri, dan terdiri dari metadata dan file data.
Item 14. Administrator Azure mengelola izin untuk akun ADLS Gen2 organisasi.
Item 15. Administrator Power BI mengawasi dan memantau aktivitas di layanan Power BI.

Tip

Kami menyarankan agar Anda juga meninjau skenario penggunaan persiapan data lanjutan. Ini dibangun berdasarkan konsep yang diperkenalkan dalam skenario ini.

Poin-poin penting

Berikut adalah beberapa poin penting yang perlu ditekankan tentang skenario persiapan data layanan mandiri.

Aliran data

Aliran data terdiri dari kumpulan tabel (juga dikenal sebagai entitas). Semua pekerjaan untuk membuat aliran data dilakukan di Power Query Online. Anda dapat membuat aliran data di beberapa produk, termasuk Power Apps, Dynamics 365 Customer Insights, dan Power BI.

Catatan

Anda tidak dapat membuat aliran data di ruang kerja pribadi di layanan Power BI.

Mendukung pembuat model semantik

Diagram skenario menggambarkan penggunaan aliran data Power BI untuk menyediakan data yang disiapkan kepada pembuat model semantik layanan mandiri lainnya.

Catatan

Model semantik menggunakan aliran data sebagai sumber data. Laporan tidak dapat terhubung langsung ke aliran data.

Berikut adalah beberapa manfaat menggunakan aliran data Power BI:

  • Pembuat model semantik menggunakan antarmuka Power Query yang sama akrab yang ditemukan di Power BI Desktop.
  • Logika persiapan data dan transformasi data yang ditentukan oleh aliran data dapat digunakan kembali berkali-kali karena terpusat.
  • Ketika perubahan logika persiapan data dilakukan pada aliran data, mungkin tidak memerlukan pembaruan model data dependen. Menghapus atau mengganti nama kolom, atau mengubah jenis data kolom, akan memerlukan pembaruan model data dependen.
  • Data yang telah disiapkan dapat dengan mudah disediakan untuk pembuat model semantik Power BI. Penggunaan kembali sangat membantu untuk tabel yang biasa digunakan—terutama tabel dimensi, seperti tanggal, pelanggan, dan produk.
  • Tingkat upaya yang diperlukan oleh pembuat model semantik berkurang karena pekerjaan persiapan data telah dipisahkan dari pekerjaan pemodelan data.
  • Lebih sedikit pembuat model semantik yang membutuhkan akses langsung ke sistem sumber. Sistem sumber bisa kompleks untuk dikueri dan mungkin memerlukan izin akses khusus.
  • Jumlah refresh yang dijalankan pada sistem sumber berkurang karena refresh model semantik terhubung ke aliran data, dan bukan ke sistem sumber tempat aliran data mengekstrak data.
  • Dataflow mewakili rekam jepret tepat waktu, dan mempromosikan konsistensi saat digunakan oleh banyak model semantik.
  • Memisahkan logika persiapan data ke dalam aliran data dapat membantu meningkatkan keberhasilan refresh model semantik. Jika refresh aliran data gagal, model semantik akan di-refresh menggunakan refresh aliran data terakhir yang berhasil.

Tip

Buat tabel aliran data dengan menerapkan prinsip desain star schema (skema bintang). Desain skema bintang sangat cocok untuk membuat model semantik Power BI. Selain itu, persempit output aliran data dengan menerapkan nama yang mudah diingat dan gunakan jenis data tertentu. Teknik-teknik ini mempromosikan konsistensi dalam model semantik dependen dan membantu mengurangi jumlah pekerjaan yang perlu dilakukan pembuat model semantik.

Fleksibilitas pembuat model semantik

Saat pembuat model semantik tersambung ke aliran data di Power BI Desktop, pembuat tidak terbatas pada penggunaan output aliran data yang tepat. Mereka masih memiliki fungsionalitas lengkap Power Query yang tersedia untuk mereka. Fungsionalitas ini berguna jika pekerjaan persiapan data tambahan diperlukan, atau data memerlukan transformasi lebih lanjut.

Fitur lanjutan aliran data

Ada banyak teknik desain, pola, dan praktik terbaik untuk aliran data yang dapat membawanya ke layanan mandiri ke siap untuk perusahaan. Aliran data di ruang kerja yang memiliki mode lisensinya diatur ke Premium per pengguna, kapasitas Premium, atau kapasitas Fabric dapat memperoleh manfaat dari fitur lanjutan.

Penting

Terkadang artikel ini mengacu pada Power BI Premium atau langganan kapasitasnya (SKU P). Ketahuilah bahwa Microsoft saat ini mengonsolidasikan opsi pembelian dan menghentikan SKU Power BI Premium per kapasitas. Pelanggan baru dan yang sudah ada harus mempertimbangkan untuk membeli langganan kapasitas Fabric (F SKU) sebagai gantinya.

Untuk informasi selengkapnya, lihat Pembaruan penting yang masuk ke lisensi Power BI Premium dan Tanya Jawab Umum Power BI Premium.

Catatan

Salah satu fitur lanjutan adalah refresh inkremental untuk aliran data. Meskipun refresh bertahap untuk model semantik adalah fitur Power BI Pro, refresh bertahap untuk aliran data adalah fitur Premium.

Untuk mempelajari selengkapnya tentang fitur lanjutan aliran data, lihat skenario penggunaan persiapan data lanjutan.

Aliran data dan refresh model semantik

Seperti yang disebutkan sebelumnya, aliran data adalah sumber data untuk model semantik. Dalam kebanyakan kasus, beberapa jadwal refresh data terlibat: satu untuk aliran data dan satu untuk setiap model semantik. Atau, Dimungkinkan untuk menggunakan DirectQuery dari model semantik ke aliran data, yang merupakan fitur Premium (tidak digambarkan dalam diagram skenario).

Azure Data Lake Storage Gen2

Di Microsoft Azure, akun ADLS Gen2 adalah tipe akun Azure Storage khusus dengan namespace hierarkis yang diaktifkan. ADLS Gen2 memiliki manfaat performa, manajemen, dan keamanan untuk mengoperasikan beban kerja analitik. Secara default, aliran data Power BI menggunakan penyimpanan internal, yang merupakan akun data lake bawaan yang dikelola oleh layanan Power BI. Secara opsional, organisasi dapat membawa data lake mereka sendiri dengan menyambungkan ke akun ADLS Gen2 organisasi mereka.

Berikut adalah beberapa manfaat menggunakan akun data lake organisasi:

  • Data yang disimpan oleh aliran data Power BI dapat (secara opsional) diakses dari data lake oleh pengguna atau proses lain. Hal itu berguna ketika penggunaan kembali aliran data terjadi di luar Power BI. Misalnya, data dapat diakses oleh Azure Data Factory.
  • Data di data lake dapat (secara opsional) dikelola oleh alat atau sistem lain. Dalam hal ini, Power BI dapat menggunakan data alih-alih mengelolanya (tidak digambarkan dalam diagram skenario).

Penyimpanan tingkat penyewa

Bagian koneksi Azure pada Admin portal (Portal admin) mencakup pengaturan untuk mengonfigurasi koneksi ke akun ADLS Gen2. Mengonfigurasi pengaturan ini memungkinkan Anda membawa data lake Anda sendiri. Setelah disiapkan, Anda dapat mengatur ruang kerja untuk menggunakan akun data lake tersebut.

Penting

Mengatur koneksi Azure tidak berarti semua aliran data di penyewa Power BI disimpan di akun ini secara default. Untuk menggunakan akun penyimpanan eksplisit (bukan penyimpanan internal), setiap ruang kerja harus terhubung secara khusus.

Sangat penting untuk mengatur koneksi Azure ruang kerja sebelum membuat aliran data apa pun di ruang kerja. Akun penyimpanan Azure yang sama digunakan untuk pencadangan model semantik Power BI.

Penyimpanan tingkat ruang kerja

Administrator Power BI dapat mengonfigurasi pengaturan untuk memberikan izin penyimpanan tingkat ruang kerja (di bagian Koneksi Azure di portal Admin). Saat diaktifkan, pengaturan ini memungkinkan administrator ruang kerja untuk menggunakan akun penyimpanan yang berbeda dari akun yang diatur di tingkat penyewa. Mengaktifkan pengaturan ini sangat membantu untuk unit bisnis terdesentralisasi yang mengelola data lake mereka sendiri di Azure.

Catatan

Izin penyimpanan tingkat ruang kerja di Admin portal (Portal admin) berlaku untuk semua ruang kerja di penyewa Power BI.

Format Common Data Model

Data dalam akun ADLS Gen2 disimpan dalam struktur Common Data Model (CDM). Struktur CDM adalah format metadata yang menentukan cara skema yang menjelaskan sendiri, serta data, disimpan. Struktur CDM memungkinkan konsistensi semantik dalam format yang distandardisasi untuk berbagi data di berbagai aplikasi (tidak digambarkan dalam diagram skenario).

Menerbitkan ke ruang kerja terpisah

Ada beberapa keuntungan untuk menerbitkan aliran data ke ruang kerja yang terpisah dari tempat model semantik dependen disimpan. Salah satu manfaatnya adalah kejelasan tentang siapa yang bertanggung jawab untuk mengelola setiap jenis konten (jika Anda memiliki orang yang berbeda yang menangani tanggung jawab yang berbeda). Manfaat lainnya adalah izin ruang kerja tertentu dapat ditetapkan untuk setiap tipe konten.

Catatan

Anda tidak dapat membuat aliran data di ruang kerja pribadi di layanan Power BI.

Skenario penggunaan persiapan data lanjutan menjelaskan cara menyiapkan beberapa ruang kerja untuk memberikan fleksibilitas yang lebih baik saat mendukung pembuat layanan mandiri tingkat perusahaan.

Penyetelan gateway

Biasanya, Gateway data lokal diperlukan untuk menghubungkan sumber data yang berada dalam jaringan organisasi privat atau jaringan virtual.

Gateway data diperlukan saat:

  • Menulis aliran data di Power Query Online yang terhubung ke data organisasi privat.
  • Me-refresh aliran data yang terhubung ke data organisasi privat.

Tip

Aliran data memerlukan gateway data terpusat dalam mode standard (standar). Gateway dalam mode personal (pribadi) tidak didukung saat bekerja dengan aliran data.

Pengawasan sistem

Log aktivitas merekam aktivitas pengguna yang terjadi di layanan Power BI. Administrator Power BI dapat menggunakan data log aktivitas yang dikumpulkan untuk menjalankan audit guna membantu mereka memahami pola penggunaan dan adopsi. Log aktivitas juga berharga untuk mendukung upaya tata kelola, audit keamanan, dan persyaratan kepatuhan. Skenario persiapan data layanan mandiri sangatlah membantu untuk melacak penggunaan aliran data.

Di artikel berikutnya dalam rangkaian ini, pelajari tentang skenario penggunaan persiapan data lanjutan.