Kurz: Výpočet statistik kontejnerů pomocí Databricks

Článek
06/01/2023

V tomto kurzu se dozvíte, jak shromažďovat statistiky o kontejnerech pomocí Azure Blob Storage inventáře společně s Azure Databricks.

V tomto kurzu se naučíte:

Vygenerování sestavy inventáře
Vytvoření pracovního prostoru, clusteru a poznámkového bloku Azure Databricks
Čtení souboru inventáře objektů blob
Získání počtu a celkové velikosti objektů blob, snímků a verzí
Získání počtu objektů blob podle typu objektu blob a typu obsahu

Požadavky

Předplatné Azure – vytvoření účtu zdarma
Účet úložiště Azure – vytvoření účtu úložiště

Ujistěte se, že vaše identita uživatele má přiřazenou roli Přispěvatel dat v objektech blob služby Storage .

Vygenerování sestavy inventáře

Povolte pro svůj účet úložiště sestavy inventáře objektů blob. Viz Povolení sestav inventáře objektů blob služby Azure Storage.

Použijte následující nastavení konfigurace:

Nastavení	Hodnota
Název pravidla	objekt blobinventory
Kontejner	<název kontejneru>
Typ objektu do inventáře	Objekt blob
Typy objektů blob	Objekty blob bloku, objekty blob stránky a doplňovací objekty blob
Podtypy	zahrnout verze objektů blob, zahrnout snímky, zahrnout odstraněné objekty blob
Pole inventáře objektů blob	Vše
Četnost zásob	Každý den
Formát exportu	CSV

Po povolení sestav inventáře možná budete muset počkat až 24 hodin, než se vygeneruje první sestava.

Konfigurace Azure Databricks

V této části vytvoříte pracovní prostor, cluster a poznámkový blok Azure Databricks. Později v tomto kurzu vložíte fragmenty kódu do buněk poznámkového bloku a pak je spustíte, abyste shromáždili statistiky kontejneru.

Vytvořte pracovní prostor Azure Databricks. Viz Vytvoření pracovního prostoru Azure Databricks.
Vytvořte cluster. Viz Vytvoření clusteru.
Vytvořte poznámkový blok a jako výchozí jazyk poznámkového bloku zvolte Python. Viz Vytvoření poznámkového bloku.

Čtení souboru inventáře objektů blob

Zkopírujte a vložte následující blok kódu do první buňky, ale tento kód ještě nespusoučte.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
   storage_account_name = "<storage-account-name>"
   storage_account_key = "<storage-account-key>"
   container = "<container-name>"
   blob_inventory_file = "<blob-inventory-file-name>" 
   hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

V tomto bloku kódu nahraďte následující hodnoty:
- <storage-account-name> Zástupnou hodnotu nahraďte názvem vašeho účtu úložiště.
- <storage-account-key> Zástupnou hodnotu nahraďte klíčem účtu vašeho účtu úložiště.
- <container-name> Zástupnou hodnotu nahraďte kontejnerem, který obsahuje sestavy inventáře.
- <blob-inventory-file-name> Zástupný symbol nahraďte plně kvalifikovaným názvem souboru inventáře (například: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Pokud má váš účet hierarchický obor názvů, nastavte proměnnou hierarchical_namespace_enabled na True.
Stisknutím kláves SHIFT + ENTER spusťte kód v tomto bloku.