Mengonfigurasi penyimpanan aliran data untuk menggunakan Azure Data Lake Gen 2

Data yang digunakan dengan Power BI disimpan dalam penyimpanan internal yang disediakan oleh Power BI secara default. Dengan integrasi alur data dan Azure Data Lake Storage Gen 2 (ADLS Gen2), Anda dapat menyimpan alur data Anda di akun organisasi Azure Data Lake Storage Gen2 Anda. Fitur ini pada dasarnya memungkinkan Anda untuk "membawa penyimpanan Anda sendiri" ke aliran data Power BI, dan membuat koneksi di tingkat penyewa atau ruang kerja.

Alasan untuk menggunakan koneksi ruang kerja atau penyewa ADLS Gen 2

Setelah Anda melampirkan aliran data, Power BI mengonfigurasi dan menyimpan referensi sehingga Anda sekarang dapat membaca dan menuliskan data ke ADLS Gen 2 Anda sendiri. Power BI menyimpan data dalam format model data umum (CDM), yang mengambil metadata tentang data Anda selain data aktual yang dihasilkan oleh aliran data itu sendiri. Fitur ini membuka banyak kemampuan canggih dan memungkinkan data Anda dan metadata terkait dalam format CDM untuk sekarang melayani ekstensibilitas, otomatisasi, pemantauan, dan skenario pencadangan. Saat Anda membuat data ini tersedia dan dapat diakses secara luas di lingkungan Anda sendiri, hal ini memungkinkan Anda untuk mendemokratisasi wawasan dan data yang dibuat dalam organisasi Anda. Ini juga membuka kemampuan bagi Anda untuk membuat solusi lebih lanjut dengan berbagai kompleksitas. Solusi Anda dapat berupa aplikasi dan solusi kustom sadar CDM di Power Platform, Azure, dan solusi yang tersedia melalui ekosistem mitra dan vendor perangkat lunak independen (ISV). Atau Anda dapat membuat aplikasi untuk membaca CSV. Teknisi data, ilmuwan data, dan analis sekarang dapat bekerja dengan, menggunakan, dan menggunakan ulang sekumpulan data umum yang dipilih di ADLS Gen 2.

Ada dua cara untuk mengonfigurasi penyimpanan ADLS Gen 2 mana yang akan digunakan: Anda dapat menggunakan akun ADLS Gen 2 yang ditetapkan penyewa, atau Anda dapat membawa penyimpanan ADLS Gen 2 Anda sendiri di tingkat ruang kerja.

Prasyarat

  • Untuk membawa akun ADLS Gen 2 Anda sendiri, Anda harus memiliki izin Pemilik di lapisan akun penyimpanan. Izin di grup sumber daya atau tingkat langganan tidak akan berfungsi. Jika Anda adalah administrator, Anda masih harus menetapkan izin Pemilik kepada diri Anda sendiri. Saat ini tidak mendukung Akun Penyimpanan ADLS Gen2 di belakang firewall.

  • Akun penyimpanan harus dibuat dengan Hierarchical Namespace (HNS) diaktifkan.

  • Akun penyimpanan harus dibuat di penyewa Microsoft Entra yang sama dengan penyewa Power BI.

  • Pengguna harus memiliki peran Pemilik Data Blob Penyimpanan, peran Pembaca Data Blob Penyimpanan, dan peran Pemilik di tingkat akun penyimpanan (cakupan harus sumber daya ini dan tidak diwariskan). Setiap perubahan peran yang diterapkan mungkin membutuhkan waktu beberapa menit untuk disinkronkan, dan harus disinkronkan sebelum langkah-langkah berikut dapat diselesaikan dalam layanan Power BI.

  • Wilayah penyewa ruang kerja Power BI harus sama dengan wilayah akun penyimpanan.

  • TLS (Keamanan Lapisan Transportasi) versi 1.2 (atau lebih tinggi) diperlukan untuk mengamankan titik akhir Anda. Browser web dan aplikasi klien lain yang menggunakan versi TLS yang lebih lama dari TLS 1.2 tidak dapat terhubung.

  • Melampirkan aliran data dengan ADLS Gen 2 di belakang autentikasi multifaktor (MFA) tidak didukung.

  • Terakhir, Anda dapat terhubung ke ADLS Gen 2 apa pun dari portal Admin, tetapi jika Anda terhubung langsung ke ruang kerja, Anda harus terlebih dahulu memastikan tidak ada aliran data di ruang kerja sebelum menyambungkan.

Catatan

Bawa penyimpanan Anda sendiri (Azure Data Lake Gen 2) tidak tersedia di layanan Power BI untuk pelanggan GCC Pemerintah AS. Untuk informasi selengkapnya tentang fitur mana yang tersedia, dan yang tidak, lihat Ketersediaan fitur Power BI untuk pelanggan Pemerintah AS.

Tabel berikut menjelaskan izin untuk ADLS dan untuk Power BI yang diperlukan untuk ADLS Gen 2 dan Power BI:

Perbuatan Izin ADLS Izin Power BI minimum
Hubungkan ADLS Gen 2 ke penyewa Power BI Pemilik Administrator Power BI
Hubungkan ADLS Gen 2 ke Ruang Kerja Pemilik Admin Ruang Kerja
Buat aliran data Power BI yang menuliskan kembali ke akun ADLS yang terhubung Tidak berlaku Kontributor ruang kerja
Konsumsi aliran data Power BI Tidak berlaku Penampil ruang kerja

Koneksi ke Azure Data Lake Gen 2 di tingkat ruang kerja

Arahkan ke ruang kerja yang tidak memiliki aliran data. Pilih Pengaturan ruang kerja. Pilih tab Azure Koneksi ions lalu pilih bagian Penyimpanan.

Screenshot of the Workspace settings pane on the Azure connections tab.

Opsi Gunakan koneksi Azure default terlihat jika admin telah mengonfigurasi akun ADLS Gen 2 yang ditetapkan penyewa. Anda memiliki dua pilihan:

  • Gunakan akun ADLS Gen 2 yang dikonfigurasi penyewa dengan memilih kotak yang disebut Gunakan koneksi Azure default, atau
  • Pilih Hubungkan ke Azure untuk mengarahkan ke akun Azure Storage baru.

Saat Anda memilih Hubungkan ke Azure, Power BI mengambil daftar langganan Azure yang dapat Anda akses. Isi menu dropdown. Kemudian pilih langganan Azure yang valid, grup sumber daya, dan akun penyimpanan yang mengaktifkan opsi namespace hierarkis, yang merupakan bendera ADLS Gen2. Akun pribadi yang digunakan untuk menyambungkan ke Azure hanya digunakan sekali, untuk mengatur koneksi awal dan memberikan hak akun layanan Power BI untuk membaca dan menulis data, setelah itu akun pengguna asli tidak lagi diperlukan untuk menjaga koneksi tetap aktif.

Screenshot of the Settings window after choosing Connecting to Azure.

Setelah Anda memilih pilihan Anda, pilih Simpan dan Anda sekarang telah berhasil menyambungkan ruang kerja ke akun ADLS Gen2 Anda sendiri. Power BI secara otomatis mengonfigurasi akun penyimpanan dengan izin yang diperlukan, dan menyiapkan sistem file Power BI tempat data akan ditulis. Pada titik ini, setiap data aliran data di dalam ruang kerja ini akan menulis langsung ke sistem file ini, yang dapat digunakan dengan layanan Azure lainnya. Anda sekarang memiliki satu sumber untuk semua data organisasi atau departemen Anda.

Konfigurasi koneksi Azure

Mengonfigurasi koneksi Azure adalah pengaturan opsional dengan lebih banyak properti yang dapat diatur secara opsional:

  • Penyimpanan Tingkat Penyewa, yang memungkinkan Anda mengatur default, dan/atau
  • Penyimpanan tingkat ruang kerja, yang memungkinkan Anda menentukan koneksi per ruang kerja

Anda dapat secara opsional mengonfigurasi penyimpanan tingkat penyewa jika Anda ingin menggunakan data lake terpusat saja, atau ingin penyimpanan ini menjadi opsi default. Kami tidak secara otomatis memulai dengan menggunakan default untuk memungkinkan fleksibilitas dalam konfigurasi Anda, sehingga Anda memiliki fleksibilitas untuk mengonfigurasi ruang kerja yang menggunakan koneksi ini sesuai keinginan Anda. Jika Anda mengonfigurasi akun ADLS Gen 2 yang ditetapkan penyewa, Anda tetap harus mengonfigurasi setiap ruang kerja untuk menggunakan opsi default ini.

Anda dapat secara opsional, atau sebagai tambahan, mengonfigurasi izin penyimpanan tingkat ruang kerja sebagai opsi terpisah, yang memberikan fleksibilitas lengkap untuk mengatur akun ADLS Gen 2 tertentu berdasarkan ruang kerja.

Untuk meringkas, jika izin penyimpanan tingkat penyewa dan penyimpanan tingkat ruang kerja diberikan, maka admin ruang kerja dapat secara opsional menggunakan koneksi ADLS default, atau memilih untuk mengonfigurasi akun penyimpanan lain yang terpisah dari default. Jika penyimpanan penyewa tidak diatur, admin ruang kerja dapat secara opsional mengonfigurasi akun ADLS di ruang kerja berdasarkan ruang kerja. Terakhir, jika penyimpanan tingkat penyewa dipilih dan penyimpanan tingkat ruang kerja tidak diizinkan, maka admin ruang kerja dapat secara opsional mengonfigurasi aliran data mereka untuk menggunakan koneksi ini.

Struktur dan format untuk koneksi ruang kerja ADLS Gen 2

Di akun penyimpanan ADLS Gen 2, semua aliran data disimpan dalam kontainer powerbi sistem file.

Struktur kontainer powerbi terlihat seperti ini: <workspace name>/<dataflow name>/model.json, <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots> dan <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

Lokasi tempat aliran data menyimpan data dalam hierarki folder untuk ADLS Gen 2 sama apakah ruang kerja terletak dalam kapasitas bersama atau kapasitas Premium.

Contoh berikut menggunakan tabel Pesanan sampel Northwind Odata.

Screenshot of the file explorer showing an example using the Orders table of the Northwind Odata sample.

Pada gambar sebelumnya:

  • model.json adalah versi terbaru dari aliran data.
  • Model.json.snapshots adalah semua versi aliran data sebelumnya. Riwayat ini berguna jika Anda memerlukan versi mashup sebelumnya, atau pengaturan inkremental.
  • Nama tabel adalah folder yang berisi data yang dihasilkan setelah refresh aliran data selesai.

Kami hanya menulis ke akun penyimpanan ini dan saat ini tidak menghapus data. Jadi bahkan setelah mencopot, kami tidak menghapus dari akun ADLS, sehingga semua file yang disebutkan dalam daftar sebelumnya masih disimpan.

Catatan

Aliran data memungkinkan penautan atau referensi tabel di aliran data lainnya. Dalam aliran data tersebut, file model.json dapat merujuk ke model.json lain dari aliran data lain di ruang kerja yang sama atau lainnya.

Memindahkan file antara/dalam akun penyimpanan ADLS Gen 2

Saat Anda memindahkan aliran data dari satu akun penyimpanan ADLS Gen2 ke akun penyimpanan lainnya, Anda perlu memastikan bahwa jalur dalam file model.json diperbarui untuk mencerminkan lokasi baru. Ini karena file model.json berisi jalur ke aliran data dan jalur ke data. Jika Anda tidak memperbarui jalur, aliran data tidak akan dapat menemukan data dan menyebabkan kesalahan izin. Untuk memperbarui jalur, Anda bisa menggunakan langkah-langkah berikut:

  • Buka file model.json di editor teks.
  • Temukan URL akun penyimpanan dan ganti dengan URL akun penyimpanan baru.
  • Simpan file.
  • Timpa file model.json yang ada di akun penyimpanan ADLS Gen2.

Ekstensibilitas untuk koneksi ruang kerja ADLS Gen 2

Jika Anda menyambungkan ADLS Gen 2 ke Power BI, Anda bisa melakukan tindakan ini di tingkat ruang kerja atau penyewa. Pastikan Anda memiliki tingkat akses yang tepat. Pelajari lebih lanjut di Prasyarat.

Struktur penyimpanan mematuhi format Common Data Model. Pelajari selengkapnya tentang struktur penyimpanan dan CDM dengan mengunjungi Apa struktur penyimpanan untuk aliran data analitis dan Menggunakan Model Data Umum untuk mengoptimalkan Azure Data Lake Storage Gen2.

Setelah dikonfigurasi dengan benar, data dan metadata berada di kontrol Anda. Banyak aplikasi mengetahui CDM dan data dapat diperluas dengan menggunakan Azure, PowerApps, dan PowerAutomate. Anda juga dapat menggunakan ekosistem pihak ketiga baik dengan sesuai dengan format atau dengan membaca data mentah.

Melepaskan Azure Data Lake Gen 2 dari ruang kerja atau penyewa

Untuk menghapus koneksi di tingkat ruang kerja, Anda harus terlebih dahulu memastikan semua aliran data di ruang kerja dihapus. Setelah semua aliran data dihapus, pilih Putuskan sambungan di pengaturan ruang kerja. Hal yang sama berlaku untuk penyewa, tetapi Anda harus terlebih dahulu memastikan semua ruang kerja juga telah terputus dari akun penyimpanan penyewa sebelum Anda dapat memutuskan sambungan di tingkat penyewa.

Menonaktifkan Azure Data Lake Gen 2

Di portal Admin, di bawah aliran data, Anda dapat menonaktifkan akses bagi pengguna untuk menggunakan fitur ini, dan dapat tidak mengizinkan admin ruang kerja untuk membawa Azure Storage mereka sendiri.

Kembali dari Azure Data Lake Gen 2

Setelah penyimpanan aliran data dikonfigurasi untuk menggunakan Azure Data Lake Gen 2, tidak ada cara untuk kembali secara otomatis. Proses untuk kembali ke penyimpanan yang dikelola Power BI bersifat manual.

Untuk mengembalikan migrasi yang Anda buat ke Gen 2, Anda perlu menghapus aliran data dan membuatnya kembali di ruang kerja yang sama. Kemudian, karena kami tidak menghapus data dari ADLS Gen 2, buka sumber daya itu sendiri dan bersihkan data. Tindakan ini akan melibatkan langkah-langkah berikut.

  1. Ekspor salinan aliran data dari Power BI. Atau, salin file model.json. File model.json disimpan di ADLS.

  2. Hapus aliran data.

  3. Copot ADLS.

  4. Buat ulang aliran data dengan menggunakan impor. Data refresh inkremental (jika berlaku) perlu dihapus sebelum mengimpor. Tindakan ini dapat dilakukan dengan menghapus partisi yang relevan dalam file model.json.

  5. Mengonfigurasi refresh/membuat ulang kebijakan refresh inkremental.

Koneksi ke data dengan menggunakan konektor ADLS Gen 2

Cakupan dokumen ini menjelaskan koneksi aliran data ADLS Gen 2 dan bukan konektor ADLS Gen 2 Power BI. Bekerja dengan konektor ADLS Gen 2 adalah skenario yang terpisah, mungkin bersifat tambahan. Konektor ADLS hanya menggunakan ADLS sebagai sumber data. Jadi menggunakan Power Query Online untuk mengkueri data tersebut tidak harus dalam format CDM, dapat berupa format data apa pun yang diinginkan pelanggan. Untuk informasi selengkapnya, lihat Azure Data Lake Storage Gen2.

Artikel berikut ini menyediakan informasi selengkapnya tentang aliran data dan Power BI: