البرنامج التعليمي: حساب إحصائيات الحاوية باستخدام Databricks

يوضح لك هذا البرنامج التعليمي كيفية جمع الإحصائيات حول حاوياتك باستخدام مخزون Azure Blob Storage جنبا إلى جنب مع Azure Databricks.

في هذا البرنامج التعليمي، تتعلم كيفية:

إنشاء تقرير مخزون
إنشاء مساحة عمل ودفتر ملاحظات Azure Databricks
قراءة ملف مخزون الكائن الثنائي كبير الحجم
الحصول على العدد والحجم الإجمالي للكائنات الثنائية كبيرة الحجم واللقطات والإصدارات
الحصول على عدد الكائنات الثنائية كبيرة الحجم حسب نوع الكائن الثنائي كبير الحجم ونوع المحتوى

المتطلبات الأساسية

اشتراك Azure - إنشاء حساب مجانا
حساب تخزين Azure - إنشاء حساب تخزين

تأكد من أن هوية المستخدم الخاصة بك لها دور Storage Blob Data Contributor المعين لها.

إنشاء تقرير مخزون

تمكين تقارير مخزون الكائن الثنائي كبير الحجم لحساب التخزين الخاص بك. راجع تمكين تقارير مخزون كائن ثنائي كبير الحجم ل Azure Storage.

استخدم إعدادات التكوين التالية:

الإعداد	القيمة‬
اسم القاعدة	مزايدة
الحاوية	<اسم الحاوية>
نوع الكائن للمخزون	كائن ثنائي كبير الحجم
أنواع الكائنات الثنائية كبيرة الحجم	الكائنات الثنائية كبيرة الحجم للكتلة، والكائنات الثنائية كبيرة الحجم للصفحة، والكائنات الثنائية كبيرة الحجم للإلحاق
الأنواع الفرعية	تضمين إصدارات الكائن الثنائي كبير الحجم، وتضمين اللقطات، وتضمين الكائنات الثنائية كبيرة الحجم المحذوفة
حقول مخزون Blob	الكل
تكرار المخزون	يوميًا
تصدير التنسيق	CSV

قد تضطر إلى الانتظار لمدة تصل إلى 24 ساعة بعد تمكين تقارير المخزون لإنشاء تقريرك الأول.

تكوين Azure Databricks

في هذا القسم، يمكنك إنشاء مساحة عمل ودفتر ملاحظات Azure Databricks. لاحقا في هذا البرنامج التعليمي، يمكنك لصق قصاصات التعليمات البرمجية في خلايا دفتر الملاحظات، ثم تشغيلها لجمع إحصائيات الحاوية.

أنشئ مساحة عمل Azure Databricks. راجع إنشاء مساحة عمل Azure Databricks.
قم بإنشاء دفتر ملاحظات جديد. راجع إنشاء دفتر ملاحظات.
اختر Python كلغة افتراضية لدفتر الملاحظات.

قراءة ملف مخزون الكائن الثنائي كبير الحجم

انسخ كتلة التعليمات البرمجية الآتية وألصقها في أول خلية، لكن دون تشغيل هذه التعليمة البرمجية بعد.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
storage_account_name = "<storage-account-name>"
storage_account_key = "<storage-account-key>"
container = "<container-name>"
blob_inventory_file = "<blob-inventory-file-name>" 
hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

في كتلة التعليمات البرمجية هذه، استبدل القيم التالية:
- استبدل <storage-account-name> قيمة العنصر النائب باسم حساب التخزين الخاص بك.
- <storage-account-key> استبدل قيمة العنصر النائب بمفتاح الحساب لحساب التخزين الخاص بك.
- <container-name> استبدل قيمة العنصر النائب بالحاوية التي تحتوي على تقارير المخزون.
- <blob-inventory-file-name> استبدل العنصر النائب بالاسم المؤهل بالكامل لملف المخزون (على سبيل المثال: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- إذا كان حسابك يحتوي على مساحة اسم هرمية، فقم بتعيين hierarchical_namespace_enabled المتغير إلى True.
اضغط على الزر تشغيل لتشغيل التعليمات البرمجية في هذه الخلية.