Zelfstudie: Blob-inventarisrapporten analyseren
Door te begrijpen hoe uw blobs en containers worden opgeslagen, georganiseerd en gebruikt in productie, kunt u de afwegingen tussen kosten en prestaties beter optimaliseren.
In deze zelfstudie leert u hoe u statistieken kunt genereren en visualiseren, zoals gegevensgroei in de loop van de tijd, gegevens die in de loop van de tijd zijn toegevoegd, het aantal gewijzigde bestanden, de grootte van blobmomentopnamen, toegangspatronen voor elke laag en hoe gegevens worden gedistribueerd, zowel op dit moment als in de loop van de tijd (bijvoorbeeld: gegevens over lagen, bestandstypen, in containers en blobtypen).
In deze zelfstudie leert u het volgende:
- Een blob-inventarisrapport genereren
- Een Synapse-werkruimte instellen
- Synapse Studio instellen
- Analytische gegevens genereren in Synapse Studio
- Resultaten visualiseren in Power BI
Vereisten
Een Azure-abonnement - gratis een account maken
Een Azure-opslagaccount : een opslagaccount maken
Zorg ervoor dat aan uw gebruikersidentiteit de rol Inzender voor opslagblobgegevens is toegewezen.
Een inventarisrapport genereren
Schakel blob-inventarisrapporten in voor uw opslagaccount. Zie Azure Storage-blobinventarisatierapporten inschakelen.
Mogelijk moet u tot 24 uur wachten nadat u inventarisrapporten hebt ingeschakeld voordat uw eerste rapport wordt gegenereerd.
Een Synapse-werkruimte instellen
Maak een Azure Synapse werkruimte. Zie Een Azure Synapse werkruimte maken.
Notitie
Als onderdeel van het maken van de werkruimte maakt u een opslagaccount met een hiƫrarchische naamruimte. Azure Synapse slaat Spark-tabellen en toepassingslogboeken op in dit account. Azure Synapse verwijst naar dit account als het primaire opslagaccount. Om verwarring te voorkomen, wordt in dit artikel de term voorraadrapportaccount gebruikt om te verwijzen naar het account dat inventarisrapporten bevat.
Wijs in de Synapse-werkruimte de rol Inzender toe aan uw gebruikersidentiteit. Zie Azure RBAC: de rol Van eigenaar voor de werkruimte.
Geef de Synapse-werkruimte toestemming voor toegang tot de inventarisrapporten in uw opslagaccount door naar uw voorraadrapportaccount te navigeren en vervolgens de rol Inzender voor opslagblobgegevens toe te wijzen aan de door het systeem beheerde identiteit van de werkruimte. Zie Azure-rollen toewijzen met Azure Portal.
Navigeer naar het primaire opslagaccount en wijs de rol Blob Storage-inzender toe aan uw gebruikersidentiteit.
Synapse Studio instellen
Open uw Synapse-werkruimte in Synapse Studio. Zie Synapse Studio openen.
Zorg er in Synapse Studio voor dat aan uw identiteit de rol Synapse-beheerder is toegewezen. Zie Synapse RBAC: Synapse-beheerdersrol voor de werkruimte.
Een Apache Spark-pool maken. Zie Een serverloze Apache Spark-pool maken.
Het voorbeeldnotebook instellen en uitvoeren
In deze sectie genereert u statistische gegevens die u in een rapport gaat visualiseren. Ter vereenvoudiging van deze zelfstudie maakt deze sectie gebruik van een voorbeeldconfiguratiebestand en een PySpark-voorbeeldnotebook. Het notebook bevat een verzameling query's die worden uitgevoerd in Azure Synapse Studio.
Het voorbeeldconfiguratiebestand wijzigen en uploaden
Download het bestand BlobInventoryStorageAccountConfiguration.json .
Werk de volgende tijdelijke aanduidingen van dat bestand bij:
Stel in
storageAccountName
op de naam van uw voorraadrapportaccount.Stel in
destinationContainer
op de naam van de container die de inventarisrapporten bevat.Stel
blobInventoryRuleName
in op de naam van de voorraadrapportregel die de resultaten heeft gegenereerd die u wilt analyseren.Stel in
accessKey
op de accountsleutel van het voorraadrapportaccount.
Upload dit bestand naar de container in uw primaire opslagaccount dat u hebt opgegeven bij het maken van de Synapse-werkruimte.
Het PySpark-voorbeeldnotebook importeren
Download het voorbeeldnotebook ReportAnalysis.ipynb .
Notitie
Zorg ervoor dat u dit bestand met de
.ipynb
extensie opslaat.Open uw Synapse-werkruimte in Synapse Studio. Zie Synapse Studio openen.
Selecteer in Synapse Studio het tabblad Ontwikkelen.
Selecteer het plusteken (+) om een item toe te voegen.
Selecteer Importeren, blader naar het voorbeeldbestand dat u hebt gedownload, selecteer dat bestand en selecteer Openen.
Het dialoogvenster Eigenschappen wordt weergegeven.
Selecteer in het dialoogvenster Eigenschappen de koppeling Sessie configureren .
Het dialoogvenster Sessie configureren wordt geopend.
Selecteer in de vervolgkeuzelijst Koppelen aan van het dialoogvenster Sessie configureren de Spark-pool die u eerder in dit artikel hebt gemaakt. Selecteer vervolgens de knop Toepassen .
Het Python-notebook wijzigen
Stel in de eerste cel van het Python-notebook de waarde van de
storage_account
variabele in op de naam van het primaire opslagaccount.Werk de waarde van de
container_name
variabele bij naar de naam van de container in dat account die u hebt opgegeven bij het maken van de Synapse-werkruimte.Selecteer de knop Publiceren.
Het PySpark-notebook uitvoeren
Selecteer in het PySpark-notebook de optie Alles uitvoeren.
Het duurt enkele minuten om de Spark-sessie te starten en nog een paar minuten om de inventarisrapporten te verwerken. De eerste uitvoering kan enige tijd duren als er meerdere inventarisrapporten moeten worden verwerkt. Volgende uitvoeringen verwerken alleen de nieuwe inventarisrapporten die zijn gemaakt sinds de laatste uitvoering.
Notitie
Als u wijzigingen aanbrengt in het notitieblok dat het notitieblok wordt uitgevoerd, moet u deze wijzigingen publiceren met behulp van de knop Publiceren .
Controleer of het notebook is uitgevoerd door het tabblad Gegevens te selecteren.
Een database met de naam reportdata moet worden weergegeven op het tabblad Werkruimte van het deelvenster Gegevens . Als deze database niet wordt weergegeven, moet u de webpagina mogelijk vernieuwen.
De database bevat een set tabellen. Elke tabel bevat informatie die is verkregen door de query's uit de PySpark-notebook uit te voeren.
Als u de inhoud van een tabel wilt bekijken, vouwt u de map Tabellen van de rapportgegevensdatabase uit. Klik vervolgens met de rechtermuisknop op een tabel, selecteer SQL-script selecteren en selecteer vervolgens Top 100 rijen selecteren.
U kunt de query indien nodig wijzigen en vervolgens Uitvoeren selecteren om de resultaten weer te geven.
De gegevens visualiseren
Download het voorbeeldrapportbestand ReportAnalysis.pbit .
Open Power BI Desktop. Zie Get Power BI Desktop (Power BI Desktop ophalen) voor installatierichtlijnen.
Selecteer in Power BI De optie Bestand, Rapport openen en vervolgens Door rapporten bladeren.
Wijzig in het dialoogvenster Openen het bestandstype in Power BI-sjabloonbestanden (*.pbit).
Blader naar de locatie van het bestand ReportAnalysis.pbit dat u hebt gedownload en selecteer vervolgens Openen.
Er wordt een dialoogvenster weergegeven waarin u wordt gevraagd de naam van de Synapse-werkruimte en de naam van de database op te geven.
Stel in het dialoogvenster het veld synapse_workspace_name in op de naam van de werkruimte en stel het veld database_name in op
reportdata
. Selecteer vervolgens de knop Laden .Er wordt een rapport weergegeven met visualisaties van de gegevens die door het notebook zijn opgehaald. In de volgende afbeeldingen ziet u de typen grafieken en grafieken die in dit rapport worden weergegeven.
Volgende stappen
Stel een Azure Synapse-pijplijn in om uw notebook regelmatig uit te voeren. Op die manier kunt u nieuwe inventarisrapporten verwerken wanneer ze worden gemaakt. Na de eerste uitvoering analyseert elk van de volgende uitvoeringen incrementele gegevens en werkt vervolgens de tabellen bij met de resultaten van die analyse. Zie Integreren met pijplijnen voor hulp.
Meer informatie over manieren om afzonderlijke containers in uw opslagaccount te analyseren. Zie deze artikelen:
Bereken het aantal blobs en de totale grootte per container met behulp van Azure Storage-inventaris
Meer informatie over manieren om uw kosten te optimaliseren op basis van de analyse van uw blobs en containers. Zie deze artikelen:
Kosten plannen en beheren voor Azure Blob-opslag
De kosten van het archiveren van gegevens schatten
Kosten optimaliseren door de levenscyclus van gegevens automatisch te beheren