Självstudie: Analysera blobinventeringsrapporter

Genom att förstå hur dina blobar och containrar lagras, organiseras och används i produktion kan du bättre optimera kompromisserna mellan kostnad och prestanda.

Den här självstudien visar hur du genererar och visualiserar statistik som datatillväxt över tid, data som läggs till över tid, antalet filer som ändras, storlekar på ögonblicksbilder av blobar, åtkomstmönster över varje nivå och hur data distribueras både för närvarande och över tid (till exempel data över nivåer, filtyper, i containrar och blobtyper).

I den här guiden får du lära dig att:

  • Generera en blobinventeringsrapport
  • Konfigurera en Synapse-arbetsyta
  • Konfigurera Synapse Studio
  • Generera analysdata i Synapse Studio
  • Visualisera resultat i Power BI

Förutsättningar

Generera en inventeringsrapport

Aktivera blobinventeringsrapporter för ditt lagringskonto. Se Aktivera Azure Storage-bloblagerrapporter.

Du kan behöva vänta upp till 24 timmar efter att du har aktiverat inventeringsrapporter för att din första rapport ska genereras.

Konfigurera en Synapse-arbetsyta

  1. Skapa en Azure Synapse arbetsyta. Se Skapa en Azure Synapse arbetsyta.

    Anteckning

    Som en del av att skapa arbetsytan skapar du ett lagringskonto som har en hierarkisk namnrymd. Azure Synapse lagrar Spark-tabeller och programloggar på det här kontot. Azure Synapse refererar till det här kontot som det primära lagringskontot. För att undvika förvirring använder den här artikeln termen inventeringsrapportkonto för att referera till kontot som innehåller inventeringsrapporter.

  2. I Synapse-arbetsytan tilldelar du rollen Deltagare till din användaridentitet. Se Azure RBAC: Ägarroll för arbetsytan.

  3. Ge Synapse-arbetsytan behörighet att komma åt inventeringsrapporterna i ditt lagringskonto genom att gå till ditt inventeringsrapportkonto och sedan tilldela rollen Storage Blob Data-deltagare till arbetsytans systemhanterade identitet. Se Tilldela Azure-roller med hjälp av Azure-portalen.

  4. Gå till det primära lagringskontot och tilldela rollen Blob Storage-deltagare till din användaridentitet.

Konfigurera Synapse Studio

  1. Öppna Synapse-arbetsytan i Synapse Studio. Se Öppna Synapse Studio.

  2. I Synapse Studio kontrollerar du att din identitet har tilldelats rollen Synapse-administratör. Se Synapse RBAC: Rollen Synapse-administratör för arbetsytan.

  3. Skapa en Apache Spark-pool. Se Skapa en serverlös Apache Spark-pool.

Konfigurera och köra exempelanteckningsboken

I det här avsnittet ska du generera statistiska data som du ska visualisera i en rapport. För att förenkla den här självstudien använder det här avsnittet en exempelkonfigurationsfil och en PySpark-exempelanteckningsbok. Notebook-filen innehåller en samling frågor som körs i Azure Synapse Studio.

Ändra och ladda upp exempelkonfigurationsfilen

  1. Ladda ned filen BlobInventoryStorageAccountConfiguration.json .

  2. Uppdatera följande platshållare för filen:

    • Ange storageAccountName till namnet på ditt inventeringsrapportkonto.

    • Ange destinationContainer till namnet på containern som innehåller inventeringsrapporterna.

    • Ange blobInventoryRuleName till namnet på lagerrapportregeln som har genererat de resultat som du vill analysera.

    • Ange accessKey kontonyckeln för inventeringsrapportkontot.

  3. Ladda upp den här filen till containern i ditt primära lagringskonto som du angav när du skapade Synapse-arbetsytan.

Importera PySpark-exempelanteckningsboken

  1. Ladda ned exempelanteckningsboken ReportAnalysis.ipynb .

    Anteckning

    Se till att spara filen med filnamnstillägget .ipynb .

  2. Öppna Synapse-arbetsytan i Synapse Studio. Se Öppna Synapse Studio.

  3. I Synapse Studio väljer du fliken Utveckla.

  4. Välj plustecknet (+) för att lägga till ett objekt.

  5. Välj Importera, bläddra till exempelfilen som du laddade ned, välj filen och välj Öppna.

    Dialogrutan Egenskaper visas.

  6. I dialogrutan Egenskaper väljer du länken Konfigurera session .

    Skärmbild av dialogrutan Importera egenskaper

    Dialogrutan Konfigurera session öppnas.

  7. I listrutan Anslut till i dialogrutan Konfigurera session väljer du den Spark-pool som du skapade tidigare i den här artikeln. Välj sedan knappen Tillämpa .

Ändra Python-anteckningsboken

  1. I den första cellen i Python-notebook-filen anger du värdet för variabeln storage_account till namnet på det primära lagringskontot.

  2. Uppdatera värdet för variabeln container_name till namnet på containern i det konto som du angav när du skapade Synapse-arbetsytan.

  3. Välj sedan knappen Publicera.

Kör PySpark-anteckningsboken

  1. I PySpark-anteckningsboken väljer du Kör alla.

    Det tar några minuter att starta Spark-sessionen och ytterligare några minuter för att bearbeta inventeringsrapporterna. Den första körningen kan ta en stund om det finns många inventeringsrapporter att bearbeta. Efterföljande körningar bearbetar endast de nya inventeringsrapporter som skapats sedan den senaste körningen.

    Anteckning

    Om du gör några ändringar i notebook-filen kommer notebook-filen att köras, se till att publicera ändringarna med hjälp av knappen Publicera .

  2. Kontrollera att anteckningsboken har körts genom att välja fliken Data .

    En databas med namnet reportdata bör visas på fliken Arbetsyta i fönstret Data . Om den här databasen inte visas kan du behöva uppdatera webbsidan.

    Skärmbild av fönstret Data som visar databasen reportdata

    Databasen innehåller en uppsättning tabeller. Varje tabell innehåller information som hämtas genom att köra frågorna från PySpark-anteckningsboken.

  3. Om du vill undersöka innehållet i en tabell expanderar du mappen Tabeller för databasen reportdata . Högerklicka sedan på en tabell, välj Välj SQL-skript och välj sedan Välj de 100 översta raderna.

    Skärmbild av menyalternativet för att skapa ett nytt SQL-skript

  4. Du kan ändra frågan efter behov och sedan välja Kör för att visa resultatet.

    Skärmbild av frågeredigeraren och frågeresultatet

Visualisera datan

  1. Ladda ned exempelrapportfilen ReportAnalysis.pbit .

  2. Öppna Power BI Desktop. Installationsvägledning finns i Hämta Power BI Desktop.

  3. I Power BI väljer du Arkiv, Öppna rapport och sedan Bläddra bland rapporter.

  4. I dialogrutan Öppna ändrar du filtypen till Power BI-mallfiler (*.pbit).

    Skärmbild av typen av Power BI-mallfiler som visas i dialogrutan Öppna

  5. Bläddra till platsen för filen ReportAnalysis.pbit som du laddade ned och välj sedan Öppna.

    En dialogruta visas där du uppmanas att ange namnet på Synapse-arbetsytan och databasnamnet.

  6. I dialogrutan anger du fältet synapse_workspace_name till arbetsytans namn och anger fältet database_name till reportdata. Välj sedan knappen Läs in .

    Skärmbild av dialogrutan för rapportkonfiguration

    En rapport visas som innehåller visualiseringar av data som hämtats av anteckningsboken. Följande bilder visar de typer av diagram och grafer som visas i den här rapporten.

    Skärmbild av översiktsfliken i rapporten

    Skärmbild av den detaljerade analysfliken i rapporten

    Skärmbild av uppdelningsfliken i rapporten

Nästa steg