Tutorial: Cálculo de las estadísticas de contenedor mediante Databricks

En este tutorial se muestra cómo recopilar estadísticas sobre los contenedores utilizando el inventario de Azure Blob Storage junto con Azure Databricks.

En este tutorial aprenderá a:

Generación de un informe de inventario
Creación de un área de trabajo y un cuaderno de Azure Databricks
Leer el archivo de inventario de blobs
Obtener el número y el tamaño total de blobs, instantáneas y versiones
Obtener el número de blobs por tipo de blob y tipo de contenido

Prerrequisitos

Una suscripción a Azure: cree una cuenta gratuita
Una cuenta de almacenamiento de Azure: cree una cuenta de almacenamiento

Asegúrese de que la identidad de usuario tiene asignado el rol Colaborador de datos de Storage Blob.

Generación de un informe de inventario

Habilite los informes de inventario de blobs para su cuenta de almacenamiento. Consulte Habilitación de los informes de inventario de blobs de Azure Storage.

Use las opciones de configuración siguientes:

Configuración	Value
Nombre de la regla	blobinventory
Contenedor	<nombre del contenedor>
Tipo de objeto a inventario	Blob
Tipos de blobs	Blobs en bloques, blobs en páginas y blobs anexos
Subtipos	incluir versiones de blob, incluir instantáneas, incluir blobs eliminados
Campos de inventario de blobs	Todo
Frecuencia de inventario	Diario
Formato de exportación	CSV

Es posible que tenga que esperar hasta 24 horas después de habilitar los informes de inventario para que se genere el primer informe.

Configuración de Azure Databricks

En esta sección, creará un área de trabajo y un cuaderno de Azure Databricks. Más adelante en este tutorial, pegará fragmentos de código en celdas de cuaderno y, a continuación, los ejecutará para recopilar estadísticas de contenedor.

Crear un área de trabajo de Azure Databricks. Consulte Creación de un área de trabajo de Azure Databricks.
Creación de un cuaderno. Consulte Creación de un cuaderno.
Elija Python como lenguaje predeterminado del cuaderno.

Leer el archivo de inventario de blobs

Copie y pegue el siguiente bloque de código en la primera celda, pero no ejecute el código aún.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
storage_account_name = "<storage-account-name>"
storage_account_key = "<storage-account-key>"
container = "<container-name>"
blob_inventory_file = "<blob-inventory-file-name>" 
hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

En este bloque de código, reemplace los valores siguientes:
- Reemplace el valor de marcador de posición <storage-account-name> por el nombre de la cuenta de almacenamiento.
- Reemplace el valor de marcador de posición <storage-account-key> por la clave de cuenta de la cuenta de almacenamiento.
- Reemplace el valor del marcador de posición <container-name> por el contenedor que contiene los informes de inventario.
- Reemplace el marcador de posición <blob-inventory-file-name> por el nombre completo del archivo de inventario (por ejemplo: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Si la cuenta tiene un espacio de nombres jerárquico, establezca la variable hierarchical_namespace_enabled en True.
Presione el botón Ejecutar para ejecutar el código de esta celda.