Share via


Zelfstudie: Blob-inventarisrapporten analyseren

Door te begrijpen hoe uw blobs en containers worden opgeslagen, georganiseerd en gebruikt in productie, kunt u de balans tussen kosten en prestaties beter optimaliseren.

In deze zelfstudie leert u hoe u statistieken kunt genereren en visualiseren, zoals gegevensgroei in de loop van de tijd, gegevens die in de loop van de tijd zijn toegevoegd, het aantal gewijzigde bestanden, de grootte van blobmomentopnamen, toegangspatronen voor elke laag en hoe gegevens worden gedistribueerd, zowel op dit moment als in de loop van de tijd (bijvoorbeeld gegevens over lagen, bestandstypen, in containers en blobtypen).

In deze zelfstudie leert u het volgende:

  • Een blob-inventarisrapport genereren
  • Een Synapse-werkruimte instellen
  • Synapse Studio instellen
  • Analytische gegevens genereren in Synapse Studio
  • Resultaten visualiseren in Power BI

Vereisten

Een inventarisrapport genereren

Schakel blob-inventarisrapporten in voor uw opslagaccount. Zie Azure Storage-blobinventarisrapporten inschakelen.

Mogelijk moet u maximaal 24 uur wachten nadat u inventarisrapporten hebt ingeschakeld voordat uw eerste rapport is gegenereerd.

Een Synapse-werkruimte instellen

  1. Een Azure Synapse-werkruimte maken. Zie Een Azure Synapse-werkruimte maken.

    Notitie

    Als onderdeel van het maken van de werkruimte maakt u een opslagaccount met een hiƫrarchische naamruimte. Azure Synapse slaat Spark-tabellen en toepassingslogboeken op in dit account. Azure Synapse verwijst naar dit account als het primaire opslagaccount. Om verwarring te voorkomen, wordt in dit artikel het rapportaccount voor de termenvoorraad gebruikt om te verwijzen naar het account dat inventarisrapporten bevat.

  2. Wijs in de Synapse-werkruimte de rol Inzender toe aan uw gebruikersidentiteit . Zie Azure RBAC: De rol Eigenaar voor de werkruimte.

  3. Geef de Synapse-werkruimte toestemming om toegang te krijgen tot de inventarisrapporten in uw opslagaccount door naar uw voorraadrapportaccount te navigeren en vervolgens de rol Inzender voor opslagblobgegevens toe te wijzen aan de door het systeem beheerde identiteit van de werkruimte. Zie Azure-rollen toewijzen met Azure Portal.

  4. Navigeer naar het primaire opslagaccount en wijs de rol Inzender voor Blob Storage toe aan uw gebruikersidentiteit.

Synapse Studio instellen

  1. Open uw Synapse-werkruimte in Synapse Studio. Zie Synapse Studio openen.

  2. Zorg ervoor dat in Synapse Studio de rol van Synapse-beheerder is toegewezen aan uw identiteit. Zie Synapse RBAC: Synapse Administrator-rol voor de werkruimte.

  3. Maak een Apache Spark-pool. Zie Een serverloze Apache Spark-pool maken.

Het voorbeeldnotebook instellen en uitvoeren

In deze sectie genereert u statistische gegevens die u in een rapport visualiseert. Ter vereenvoudiging van deze zelfstudie maakt deze sectie gebruik van een voorbeeldconfiguratiebestand en een pySpark-voorbeeldnotebook. Het notebook bevat een verzameling query's die worden uitgevoerd in Azure Synapse Studio.

Het voorbeeldconfiguratiebestand wijzigen en uploaden

  1. Download het BlobInventoryStorageAccountConfiguration.json-bestand .

  2. Werk de volgende tijdelijke aanduidingen van dat bestand bij:

    • Stel storageAccountName deze in op de naam van uw voorraadrapportaccount.

    • Stel destinationContainer in op de naam van de container die de inventarisrapporten bevat.

    • Stel blobInventoryRuleName deze in op de naam van de inventarisrapportregel die de resultaten heeft gegenereerd die u wilt analyseren.

    • Ingesteld accessKey op de accountsleutel van het voorraadrapportaccount.

  3. Upload dit bestand naar de container in uw primaire opslagaccount dat u hebt opgegeven toen u de Synapse-werkruimte maakte.

Het PySpark-voorbeeldnotebook importeren

  1. Download het voorbeeldnotebook ReportAnalysis.ipynb .

    Notitie

    Zorg ervoor dat u dit bestand opslaat met de .ipynb extensie.

  2. Open uw Synapse-werkruimte in Synapse Studio. Zie Synapse Studio openen.

  3. Selecteer in Synapse Studio het tabblad Ontwikkelen .

  4. Selecteer het plusteken (+) om een item toe te voegen.

  5. Selecteer Importeren, blader naar het voorbeeldbestand dat u hebt gedownload, selecteer dat bestand en selecteer Openen.

    Het dialoogvenster Eigenschappen wordt weergegeven.

  6. Selecteer in het dialoogvenster Eigenschappen de koppeling Sessie configureren.

    Schermafbeelding van het dialoogvenster Eigenschappen importeren

    Het dialoogvenster Sessie configureren wordt geopend.

  7. Selecteer in de vervolgkeuzelijst Koppelen aan het dialoogvenster Sessie configureren de Spark-pool die u eerder in dit artikel hebt gemaakt. Selecteer vervolgens de knop Toepassen .

Het Python-notebook wijzigen

  1. Stel in de eerste cel van het Python-notebook de waarde van de storage_account variabele in op de naam van het primaire opslagaccount.

  2. Werk de waarde van de container_name variabele bij naar de naam van de container in dat account dat u hebt opgegeven toen u de Synapse-werkruimte maakte.

  3. Selecteer de knop Publiceren.

Het PySpark-notebook uitvoeren

  1. Selecteer Alles uitvoeren in het PySpark-notebook.

    Het duurt enkele minuten om de Spark-sessie te starten en nog een paar minuten om de inventarisrapporten te verwerken. De eerste uitvoering kan enige tijd duren als er talloze inventarisrapporten moeten worden verwerkt. Volgende uitvoeringen verwerken alleen de nieuwe inventarisrapporten die zijn gemaakt sinds de laatste uitvoering.

    Notitie

    Als u wijzigingen aanbrengt in het notitieblok, wordt het notitieblok uitgevoerd, moet u deze wijzigingen publiceren met behulp van de knop Publiceren .

  2. Controleer of het notitieblok is uitgevoerd door het tabblad Gegevens te selecteren.

    Een database met de naam reportdata moet worden weergegeven op het tabblad Werkruimte van het deelvenster Gegevens . Als deze database niet wordt weergegeven, moet u mogelijk de webpagina vernieuwen.

    Schermopname van het deelvenster Gegevens met de rapportgegevensdatabase

    De database bevat een set tabellen. Elke tabel bevat informatie die wordt verkregen door de query's uit te voeren vanuit het PySpark-notebook.

  3. Als u de inhoud van een tabel wilt bekijken, vouwt u de map Tabellen van de rapportgegevensdatabase uit. Klik vervolgens met de rechtermuisknop op een tabel, selecteer SQL-script selecteren en selecteer vervolgens TOP 100 rijen selecteren.

    Schermopname van de menuoptie voor het maken van een nieuw SQL-script

  4. U kunt de query indien nodig wijzigen en vervolgens Uitvoeren selecteren om de resultaten weer te geven.

    Schermopname van de queryeditor en queryresultaten

De gegevens visualiseren

  1. Download het reportAnalysis.pbit-voorbeeldrapportbestand .

  2. Open Power BI Desktop. Zie Power BI Desktop downloaden voor installatierichtlijnen.

  3. Selecteer in Power BI Bestand, Rapport openen en blader vervolgens door rapporten.

  4. Wijzig in het dialoogvenster Openen het bestandstype in Power BI-sjabloonbestanden (*.pbit).).

    Schermopname van het type Power BI-sjabloonbestanden dat wordt weergegeven in het dialoogvenster Openen

  5. Blader naar de locatie van het ReportAnalysis.pbit-bestand dat u hebt gedownload en selecteer vervolgens Openen.

    Er wordt een dialoogvenster weergegeven waarin u wordt gevraagd de naam van de Synapse-werkruimte en de naam van de gegevensdatabase op te geven.

  6. Stel in het dialoogvenster het veld synapse_workspace_name in op de naam van de werkruimte en stel het veld database_name in op reportdata. Selecteer vervolgens de knop Laden .

    Schermopname van het dialoogvenster Rapportconfiguratie

    Er wordt een rapport weergegeven met visualisaties van de gegevens die door het notebook zijn opgehaald. In de volgende afbeeldingen ziet u de typen grafieken en grafieken die in dit rapport worden weergegeven.

    Schermopname van het tabblad Overzicht van het rapport

    Schermopname van het tabblad Gedetailleerde analyse van het rapport

    Schermopname van het tabblad Uitsplitsing van het rapport

Volgende stappen