Zelfstudie: Blob-inventarisrapporten analyseren

Door te begrijpen hoe uw blobs en containers worden opgeslagen, georganiseerd en gebruikt in productie, kunt u de afwegingen tussen kosten en prestaties beter optimaliseren.

In deze zelfstudie leert u hoe u statistieken kunt genereren en visualiseren, zoals gegevensgroei in de loop van de tijd, gegevens die in de loop van de tijd zijn toegevoegd, het aantal gewijzigde bestanden, de grootte van blobmomentopnamen, toegangspatronen voor elke laag en hoe gegevens worden gedistribueerd, zowel op dit moment als in de loop van de tijd (bijvoorbeeld: gegevens over lagen, bestandstypen, in containers en blobtypen).

In deze zelfstudie leert u het volgende:

  • Een blob-inventarisrapport genereren
  • Een Synapse-werkruimte instellen
  • Synapse Studio instellen
  • Analytische gegevens genereren in Synapse Studio
  • Resultaten visualiseren in Power BI

Vereisten

Een inventarisrapport genereren

Schakel blob-inventarisrapporten in voor uw opslagaccount. Zie Azure Storage-blobinventarisatierapporten inschakelen.

Mogelijk moet u tot 24 uur wachten nadat u inventarisrapporten hebt ingeschakeld voordat uw eerste rapport wordt gegenereerd.

Een Synapse-werkruimte instellen

  1. Maak een Azure Synapse werkruimte. Zie Een Azure Synapse werkruimte maken.

    Notitie

    Als onderdeel van het maken van de werkruimte maakt u een opslagaccount met een hiƫrarchische naamruimte. Azure Synapse slaat Spark-tabellen en toepassingslogboeken op in dit account. Azure Synapse verwijst naar dit account als het primaire opslagaccount. Om verwarring te voorkomen, wordt in dit artikel de term voorraadrapportaccount gebruikt om te verwijzen naar het account dat inventarisrapporten bevat.

  2. Wijs in de Synapse-werkruimte de rol Inzender toe aan uw gebruikersidentiteit. Zie Azure RBAC: de rol Van eigenaar voor de werkruimte.

  3. Geef de Synapse-werkruimte toestemming voor toegang tot de inventarisrapporten in uw opslagaccount door naar uw voorraadrapportaccount te navigeren en vervolgens de rol Inzender voor opslagblobgegevens toe te wijzen aan de door het systeem beheerde identiteit van de werkruimte. Zie Azure-rollen toewijzen met Azure Portal.

  4. Navigeer naar het primaire opslagaccount en wijs de rol Blob Storage-inzender toe aan uw gebruikersidentiteit.

Synapse Studio instellen

  1. Open uw Synapse-werkruimte in Synapse Studio. Zie Synapse Studio openen.

  2. Zorg er in Synapse Studio voor dat aan uw identiteit de rol Synapse-beheerder is toegewezen. Zie Synapse RBAC: Synapse-beheerdersrol voor de werkruimte.

  3. Een Apache Spark-pool maken. Zie Een serverloze Apache Spark-pool maken.

Het voorbeeldnotebook instellen en uitvoeren

In deze sectie genereert u statistische gegevens die u in een rapport gaat visualiseren. Ter vereenvoudiging van deze zelfstudie maakt deze sectie gebruik van een voorbeeldconfiguratiebestand en een PySpark-voorbeeldnotebook. Het notebook bevat een verzameling query's die worden uitgevoerd in Azure Synapse Studio.

Het voorbeeldconfiguratiebestand wijzigen en uploaden

  1. Download het bestand BlobInventoryStorageAccountConfiguration.json .

  2. Werk de volgende tijdelijke aanduidingen van dat bestand bij:

    • Stel in storageAccountName op de naam van uw voorraadrapportaccount.

    • Stel in destinationContainer op de naam van de container die de inventarisrapporten bevat.

    • Stel blobInventoryRuleName in op de naam van de voorraadrapportregel die de resultaten heeft gegenereerd die u wilt analyseren.

    • Stel in accessKey op de accountsleutel van het voorraadrapportaccount.

  3. Upload dit bestand naar de container in uw primaire opslagaccount dat u hebt opgegeven bij het maken van de Synapse-werkruimte.

Het PySpark-voorbeeldnotebook importeren

  1. Download het voorbeeldnotebook ReportAnalysis.ipynb .

    Notitie

    Zorg ervoor dat u dit bestand met de .ipynb extensie opslaat.

  2. Open uw Synapse-werkruimte in Synapse Studio. Zie Synapse Studio openen.

  3. Selecteer in Synapse Studio het tabblad Ontwikkelen.

  4. Selecteer het plusteken (+) om een item toe te voegen.

  5. Selecteer Importeren, blader naar het voorbeeldbestand dat u hebt gedownload, selecteer dat bestand en selecteer Openen.

    Het dialoogvenster Eigenschappen wordt weergegeven.

  6. Selecteer in het dialoogvenster Eigenschappen de koppeling Sessie configureren .

    Schermafbeelding van het dialoogvenster Eigenschappen importeren

    Het dialoogvenster Sessie configureren wordt geopend.

  7. Selecteer in de vervolgkeuzelijst Koppelen aan van het dialoogvenster Sessie configureren de Spark-pool die u eerder in dit artikel hebt gemaakt. Selecteer vervolgens de knop Toepassen .

Het Python-notebook wijzigen

  1. Stel in de eerste cel van het Python-notebook de waarde van de storage_account variabele in op de naam van het primaire opslagaccount.

  2. Werk de waarde van de container_name variabele bij naar de naam van de container in dat account die u hebt opgegeven bij het maken van de Synapse-werkruimte.

  3. Selecteer de knop Publiceren.

Het PySpark-notebook uitvoeren

  1. Selecteer in het PySpark-notebook de optie Alles uitvoeren.

    Het duurt enkele minuten om de Spark-sessie te starten en nog een paar minuten om de inventarisrapporten te verwerken. De eerste uitvoering kan enige tijd duren als er meerdere inventarisrapporten moeten worden verwerkt. Volgende uitvoeringen verwerken alleen de nieuwe inventarisrapporten die zijn gemaakt sinds de laatste uitvoering.

    Notitie

    Als u wijzigingen aanbrengt in het notitieblok dat het notitieblok wordt uitgevoerd, moet u deze wijzigingen publiceren met behulp van de knop Publiceren .

  2. Controleer of het notebook is uitgevoerd door het tabblad Gegevens te selecteren.

    Een database met de naam reportdata moet worden weergegeven op het tabblad Werkruimte van het deelvenster Gegevens . Als deze database niet wordt weergegeven, moet u de webpagina mogelijk vernieuwen.

    Schermopname van het deelvenster Gegevens met de rapportgegevensdatabase

    De database bevat een set tabellen. Elke tabel bevat informatie die is verkregen door de query's uit de PySpark-notebook uit te voeren.

  3. Als u de inhoud van een tabel wilt bekijken, vouwt u de map Tabellen van de rapportgegevensdatabase uit. Klik vervolgens met de rechtermuisknop op een tabel, selecteer SQL-script selecteren en selecteer vervolgens Top 100 rijen selecteren.

    Schermopname van de menuoptie voor het maken van een nieuw SQL-script

  4. U kunt de query indien nodig wijzigen en vervolgens Uitvoeren selecteren om de resultaten weer te geven.

    Schermopname van de query-editor en queryresultaten

De gegevens visualiseren

  1. Download het voorbeeldrapportbestand ReportAnalysis.pbit .

  2. Open Power BI Desktop. Zie Get Power BI Desktop (Power BI Desktop ophalen) voor installatierichtlijnen.

  3. Selecteer in Power BI De optie Bestand, Rapport openen en vervolgens Door rapporten bladeren.

  4. Wijzig in het dialoogvenster Openen het bestandstype in Power BI-sjabloonbestanden (*.pbit).

    Schermafbeelding van het bestandstype van de Power BI-sjabloon dat wordt weergegeven in het dialoogvenster Openen

  5. Blader naar de locatie van het bestand ReportAnalysis.pbit dat u hebt gedownload en selecteer vervolgens Openen.

    Er wordt een dialoogvenster weergegeven waarin u wordt gevraagd de naam van de Synapse-werkruimte en de naam van de database op te geven.

  6. Stel in het dialoogvenster het veld synapse_workspace_name in op de naam van de werkruimte en stel het veld database_name in op reportdata. Selecteer vervolgens de knop Laden .

    Schermopname van het dialoogvenster rapportconfiguratie

    Er wordt een rapport weergegeven met visualisaties van de gegevens die door het notebook zijn opgehaald. In de volgende afbeeldingen ziet u de typen grafieken en grafieken die in dit rapport worden weergegeven.

    Schermafbeelding van het tabblad Overzicht van het rapport

    Schermopname van het tabblad Gedetailleerde analyse van het rapport

    Schermopname van het tabblad Uitsplitsing van het rapport

Volgende stappen