Tutorial: Menganalisis laporan inventori blob
Dengan memahami bagaimana blob dan kontainer Anda disimpan, diatur, dan digunakan dalam produksi, Anda dapat mengoptimalkan tradeoff dengan lebih baik antara biaya dan performa.
Tutorial ini menunjukkan kepada Anda cara menghasilkan dan memvisualisasikan statistik seperti pertumbuhan data dari waktu ke waktu, data yang ditambahkan dari waktu ke waktu, jumlah file yang dimodifikasi, ukuran rekam jepret blob, pola akses di setiap tingkatan, dan bagaimana data didistribusikan baik saat ini maupun dari waktu ke waktu (Misalnya: data di seluruh tingkatan, jenis file, dalam kontainer, dan jenis blob).
Dalam tutorial ini, Anda akan mempelajari cara:
- Membuat laporan inventarit blob
- Menyiapkan ruang kerja Synapse
- Menyiapkan Synapse Studio
- Membuat data analitik di Synapse Studio
- Memvisualisasikan hasil di Power BI
Prasyarat
Langganan Azure - buat akun secara gratis
Akun penyimpanan Azure - membuat akun penyimpanan
Pastikan identitas pengguna Anda memiliki peran Kontributor Data Blob Penyimpanan yang ditetapkan untuk identitas tersebut.
Membuat laporan inventaris
Aktifkan laporan inventori blob untuk akun penyimpanan Anda. Lihat Mengaktifkan laporan inventori blob Azure Storage.
Anda mungkin harus menunggu hingga 24 jam setelah mengaktifkan laporan inventori agar laporan pertama Anda dibuat.
Menyiapkan ruang kerja Synapse
Membuat ruang kerja Azure Synapse. Lihat Membuat ruang kerja Azure Synapse.
Catatan
Sebagai bagian dari membuat ruang kerja, Anda akan membuat akun penyimpanan yang memiliki namespace hierarkis. Azure Synapse menyimpan tabel Spark dan log aplikasi ke akun ini. Azure Synapse menyebut akun ini sebagai akun penyimpanan utama. Untuk menghindari kebingungan, artikel ini menggunakan istilah akun laporan inventaris untuk merujuk ke akun yang berisi laporan inventaris.
Di ruang kerja Synapse, tetapkan peran Kontributor ke identitas pengguna Anda. Lihat Azure RBAC: Peran pemilik untuk ruang kerja.
Berikan izin ruang kerja Synapse untuk mengakses laporan inventori di akun penyimpanan Anda dengan menavigasi ke akun laporan inventori Anda, lalu tetapkan peran Kontributor Data Blob Penyimpanan ke identitas terkelola sistem ruang kerja. Lihat Menetapkan peran Azure dengan menggunakan portal Microsoft Azure.
Navigasi ke akun penyimpanan utama dan tetapkan peran Kontributor Penyimpanan Blob ke identitas pengguna Anda.
Menyiapkan Synapse Studio
Buka ruang kerja Synapse Anda di Synapse Studio. Lihat Membuka Synapse Studio.
Di Synapse Studio, Pastikan identitas Anda diberi peran Administrator Synapse. Lihat Synapse RBAC: Peran Administrator Synapse untuk ruang kerja.
Buat kumpulan Apache Spark. Lihat Membuat kumpulan Apache Spark tanpa server.
Menyiapkan dan menjalankan contoh buku catatan
Di bagian ini, Anda akan menghasilkan data statistik yang akan Anda visualisasikan dalam laporan. Untuk menyederhanakan tutorial ini, bagian ini menggunakan file konfigurasi sampel dan contoh buku catatan PySpark. Buku catatan berisi kumpulan kueri yang dijalankan di Azure Synapse Studio.
Mengubah dan mengunggah file konfigurasi sampel
Perbarui tempat penampung berikut dari file tersebut:
Atur
storageAccountName
ke nama akun laporan inventori Anda.Atur
destinationContainer
ke nama kontainer yang menyimpan laporan inventori.Atur
blobInventoryRuleName
ke nama aturan laporan inventaris yang telah menghasilkan hasil yang ingin Anda analisis.Atur
accessKey
ke kunci akun akun laporan inventori.
Unggah file ini ke kontainer di akun penyimpanan utama yang Anda tentukan saat membuat ruang kerja Synapse.
Mengimpor contoh buku catatan PySpark
Unduh buku catatan sampel ReportAnalysis.ipynb.
Catatan
Pastikan untuk menyimpan file ini dengan
.ipynb
ekstensi.Buka ruang kerja Synapse Anda di Synapse Studio. Lihat Membuka Synapse Studio.
Di Synapse Studio, pilih tab Kembangkan .
Pilih tanda plus (+) untuk menambahkan item.
Pilih Impor, telusuri ke file sampel yang Anda unduh, pilih file tersebut, dan pilih Buka.
Kotak dialog Properti muncul.
Dalam kotak dialog Properti , pilih tautan Konfigurasi sesi .
Kotak dialog Konfigurasi sesi terbuka.
Di daftar drop-down Lampirkan ke kotak dialog Konfigurasi sesi, pilih kumpulan Spark yang Anda buat sebelumnya di artikel ini. Kemudian, pilih tombol Terapkan .
Mengubah buku catatan Python
Di sel pertama notebook Python, atur nilai
storage_account
variabel ke nama akun penyimpanan utama.Perbarui nilai
container_name
variabel ke nama kontainer di akun tersebut yang Anda tentukan saat membuat ruang kerja Synapse.Klik tombol Terbitkan.
Menjalankan buku catatan PySpark
Di buku catatan PySpark, pilih Jalankan semua.
Diperlukan waktu beberapa menit untuk memulai sesi Spark dan beberapa menit lagi untuk memproses laporan inventori. Eksekusi pertama dapat memakan waktu cukup lama jika ada banyak laporan inventaris untuk diproses. Eksekusi berikutnya hanya akan memproses laporan inventaris baru yang dibuat sejak eksekusi terakhir.
Catatan
Jika Anda membuat perubahan apa pun pada buku catatan akan menjalankan buku catatan, pastikan untuk menerbitkan perubahan tersebut dengan menggunakan tombol Terbitkan .
Verifikasi bahwa buku catatan berhasil dijalankan dengan memilih tab Data .
Database bernama reportdata akan muncul di tab Ruang Kerja di panel Data . Jika database ini tidak muncul, maka Anda mungkin harus menyegarkan halaman web.
Database berisi sekumpulan tabel. Setiap tabel berisi informasi yang diperoleh dengan menjalankan kueri dari buku catatan PySpark.
Untuk memeriksa konten tabel, perluas folder Tabel database reportdata . Lalu, klik kanan tabel, pilih Pilih skrip SQL, lalu pilih Pilih 100 baris TERATAS.
Anda bisa mengubah kueri sesuai kebutuhan lalu memilih Jalankan untuk menampilkan hasilnya.
Visualisasikan data
Buka Power BI Desktop. Untuk panduan penginstalan, lihat Mendapatkan Power BI Desktop.
Di Power BI, pilih File, Buka laporan, lalu Telusuri laporan.
Dalam kotak dialog Buka , ubah tipe file menjadi file templat Power BI (*.pbit).
Telusuri ke lokasi file ReportAnalysis.pbit yang Anda unduh, lalu pilih Buka.
Kotak dialog muncul yang meminta Anda untuk memberikan nama ruang kerja Synapse dan nama dasar data.
Dalam kotak dialog, atur bidang synapse_workspace_name ke nama ruang kerja dan atur bidang database_name ke
reportdata
. Kemudian, pilih tombol Muat .Laporan muncul yang menyediakan visualisasi data yang diambil oleh buku catatan. Gambar berikut menunjukkan jenis bagan dan grafik yang muncul dalam laporan ini.
Langkah berikutnya
Siapkan alur Azure Synapse untuk terus menjalankan buku catatan Anda secara berkala. Dengan demikian, Anda dapat memproses laporan inventori baru saat dibuat. Setelah eksekusi awal, setiap eksekusi berikutnya akan menganalisis data bertahap lalu memperbarui tabel dengan hasil analisis tersebut. Untuk panduan, lihat Mengintegrasikan dengan alur.
Pelajari tentang cara menganalisis kontainer individual di akun penyimpanan Anda. Lihat artikel ini:
Menghitung jumlah dan ukuran total blob per kontainer menggunakan inventaris Azure Storage
Tutorial: Menghitung statistik kontainer dengan menggunakan Databricks
Pelajari tentang cara mengoptimalkan biaya Anda berdasarkan analisis blob dan kontainer Anda. Lihat artikel ini:
Merencanakan dan mengelola biaya untuk Azure Blob Storage
Memperkirakan biaya pengarsipan data
Mengoptimalkan biaya dengan mengelola siklus hidup data secara otomatis