Zelfstudie: Containerstatistieken berekenen met behulp van Databricks

In deze zelfstudie leert u hoe u statistieken over uw containers verzamelt met behulp van Azure Blob Storage-inventaris, samen met Azure Databricks.

In deze handleiding leer je hoe je:

Een inventarisrapport genereren
Een Azure Databricks-werkruimte en -notebook maken
Het blob-inventarisbestand lezen
Het aantal en de totale grootte van blobs, momentopnamen en versies ophalen
Het aantal blobs ophalen op blobtype en inhoudstype

Prerequisites

Een Azure-abonnement - gratis een account maken
Een Azure-opslagaccount - een opslagaccount maken

Zorg ervoor dat aan uw gebruikersidentiteit de rol Inzender voor opslagblobgegevens is toegewezen.

Een inventarisrapport genereren

Schakel blob-inventarisrapporten in voor uw opslagaccount. Zie Azure Storage-blobinventarisrapporten inschakelen.

Gebruik de volgende configuratie-instellingen:

Setting	Value
Naam van de regel	blobinventory
Container	<naam van uw container>
Objecttype voor voorraadbeheer	Blob
Blobtypen	Blok-blobs, pagina-blobs en toevoeg-blobs
Subtypes	blobversies opnemen, momentopnamen opnemen, verwijderde blobs opnemen
Blob-inventarisvelden	All
Inventarisfrequentie	Daily
Exportindeling	CSV

Mogelijk moet u maximaal 24 uur wachten nadat u inventarisrapporten hebt ingeschakeld voordat uw eerste rapport is gegenereerd.

Azure Databricks configureren

In deze sectie maakt u een Azure Databricks-werkruimte en -notebook. Verderop in deze zelfstudie plakt u codefragmenten in notebookcellen en voert u deze uit om containerstatistieken te verzamelen.

Maak een Azure Databricks-werkruimte. Zie Een Azure Databricks-werkruimte maken.
Maak een nieuw notitieblok. Zie Een notitieblok maken.
Kies Python als de standaardtaal van het notebook.

Het blob-inventarisbestand lezen

Kopieer en plak het volgende codeblok in de eerste cel, maar voer deze code nog niet uit.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
storage_account_name = "<storage-account-name>"
storage_account_key = "<storage-account-key>"
container = "<container-name>"
blob_inventory_file = "<blob-inventory-file-name>" 
hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

Vervang in dit codeblok de volgende waarden:
- Vervang de waarde van de tijdelijke plaatsaanduiding <storage-account-name> door de naam van uw opslagaccount.
- Vervang de waarde van de <storage-account-key> tijdelijke aanduiding door de accountsleutel van uw opslagaccount.
- Vervang de waarde van de <container-name> tijdelijke aanduiding door de container die de inventarisrapporten bevat.
- Vervang de <blob-inventory-file-name> tijdelijke aanduiding door de volledig gekwalificeerde naam van het inventarisbestand (bijvoorbeeld: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Als uw account een hiërarchische naamruimte heeft, stelt u de hierarchical_namespace_enabled variabele in op True.
Druk op de knop Uitvoeren om de code in deze cel uit te voeren.