教學課程：分析 Blob 清查報表

藉由瞭解 Blob 和容器如何儲存、組織及用於實際執行環境，您可以進一步在成本和效能之間取得最合適的取捨。

本教學課程會說明如何產生和呈現統計資料，例如一段時間的資料成長、一段時間內新增的資料、修改的檔案數目、Blob 快照集大小、每個層的存取模式，以及資料目前和經過一段時間的分佈方式 (例如：多個層、檔案類型、容器內和 Blob 類型中的資料)。

在本教學課程中，您會了解如何：

必要條件

啟用儲存體帳戶的 Blob 詳細目錄報告。請參閱啟用 Azure 儲存體 Blob 清查報表。

為您的第一份報表啟用清查報表之後，您可能必須等待最多 24 小時才會產生報表。

建立 Azure Synapse 工作區。請參閱建立 Azure Synapse 工作區。

注意

在建立工作區時，您將建立具有階層命名空間的儲存體帳戶。 Azure Synapse 會將 Spark 資料表和應用程式記錄檔儲存到此帳戶。 Azure Synapse 會將此帳戶稱為主要儲存體帳戶。為了避免混淆，本文會使用清查報表帳戶一詞來指涉包含清查報表的帳戶。
在 Synapse 工作區中，將參與者角色指派給使用者身分識別。請參閱 Azure RBAC：工作區的擁有者角色。
瀏覽您的清查報表帳戶，然後將儲存體 Blob 資料參與者角色指派給工作區的系統受控識別，授與 Synapse 工作區存取儲存體帳戶中清查報表的權限。請參閱使用 Azure 入口網站指派 Azure 角色。
瀏覽主要儲存體帳戶，並將 Blob 儲存體參與者角色指派給您的使用者身分識別。

在 Synapse Studio 中開啟您的 Synapse 工作區。請參閱開啟 Synapse Studio。
在 Synapse Studio 中，確定您的身分識別已被指派 Synapse 管理員的角色。請參閱 Synapse RBAC：工作區的 Synapse 管理員角色。
建立 Apache Spark 集區。請參閱建立無伺服器 Apache Spark 集區。

在本節中，您將產生統計資料，在報表中呈現。為了簡化本教學課程，本節使用範例組態檔和範例 PySpark 筆記本。筆記本包含 Azure Synapse Studio 中執行的查詢集合。

下載 BlobInventoryStorageAccountConfiguration.json 檔案。
更新該檔案的下列預留位置：
- 將 storageAccountName 設定為您清查報表帳戶的名稱。
- 將 destinationContainer 設定為保留清查報表的容器名稱。
- 將 blobInventoryRuleName 設定為已產生您要分析之結果的清查報表規則名稱。
- 將 accessKey 設定為清查報表帳戶的帳戶金鑰。
針對您在建立 Synapse 工作區時指定的主要儲存體帳戶，將此檔案上傳至其中的容器。

在 PySpark 筆記本中，選取 [全部執行]。

啟動 Spark 工作階段需要幾分鐘的時間，處理清查報表也需要幾分鐘。如果有許多要處理的清查報表，則第一次執行可能需要一段時間。後續執行只會處理自上次執行後建立的新清查報表。

注意

如果您在筆記本執行時，對筆記本進行任何變更，請務必使用 [發佈] 按鈕來發佈這些變更。
選取 [資料] 分頁，確認筆記本已成功執行。

名為 [reportdata] 的資料庫應該會出現在 [資料] 窗格的 [工作區] 分頁中。如果此資料庫並未出現，您可能必須重新整理網頁。

資料庫包含一組資料表。每個資料表都包含從 PySpark 筆記本執行查詢所取得的資訊。
若要檢查資料表的內容，請展開 [reportdata] 資料庫的 [資料表] 資料夾。然後，以滑鼠右鍵按一下資料表，選取 [選取 SQL 指令碼]，然後選取 [選取前 100 個資料列]。
您可以視需要修改查詢，然後選取 [執行]，以檢視結果。

下載 ReportAnalysis.pbit 範例報表檔案。
開啟 Power BI Desktop。如需安裝指引，請參閱取得 Power BI Desktop。
在 Power BI 中，選取 [檔案]、[開啟報表]，以及 [瀏覽報表]。
在 [開啟] 對話方塊中，將檔類型變更為 [Power BI 範本檔案 (*.pbit)]。
瀏覽至您下載 ReportAnalysis.pbit 檔案的位置，然後選取 [開啟]。

對話方塊隨即顯示，要求您提供 Synapse 工作區的名稱和資料庫名稱。
在對話方塊中，將 [synapse_workspace_name] 欄位設定為工作區名稱，並將 [database_name] 欄位設定為 reportdata。然後，選取 [載入] 按鈕。

報表隨即出現，提供筆記本所擷取的資料呈現。下列圖片會顯示此報表中出現的圖表和圖形類型。

設定 Azure Synapse 管線，以定期持續執行筆記本。如此一來，您就可以在建立新的清查報表時進行處理。初始執行之後，後續每個回合會分析累加資料，然後使用該分析的結果來更新資料表。如需指引，請參閱與管線整合。
瞭解如何分析儲存體帳戶中的個別容器。請參閱以下文章：

使用 Azure 儲存體詳細目錄來計算 Blob 計數和每個容器的大小總計

教學課程：使用 Databricks 計算容器統計資料
瞭解如何根據 Blob 和容器的分析來最佳化成本。請參閱以下文章：

規劃和管理 Azure Blob 儲存體

評估封存資料的成本

自動管理資料生命週期以最佳化成本