اقرأ باللغة الإنجليزية

مشاركة عبر


استكشاف التخزين والعثور على ملفات البيانات

تركز هذه المقالة على اكتشاف واستكشاف الدلائل وملفات البيانات المدارة باستخدام وحدات تخزين كتالوج Unity، بما في ذلك الإرشادات المستندة إلى واجهة المستخدم لاستكشاف وحدات التخزين باستخدام مستكشف الكتالوج. توفر هذه المقالة أيضا أمثلة للاستكشاف البرمجي للبيانات في تخزين الكائنات السحابية باستخدام مسارات وحدة التخزين وعناوين URL السحابية.

توصي Databricks باستخدام وحدات التخزين لإدارة الوصول إلى البيانات في تخزين الكائنات السحابية. لمزيد من المعلومات حول الاتصال بالبيانات في تخزين كائن السحابة، راجع الاتصال بمصادر البيانات.

للحصول على معاينة كاملة لكيفية التفاعل مع الملفات في جميع المواقع، راجع العمل مع الملفات على Azure Databricks.

هام

عند البحث عن ملفات في واجهة مستخدم مساحة العمل، قد تكتشف ملفات البيانات المخزنة كملفات مساحة عمل. توصي Databricks باستخدام ملفات مساحة العمل بشكل أساسي للتعليمات البرمجية (مثل البرامج النصية والمكتبات) أو البرامج النصية للتهيئة أو ملفات التكوين. يجب تحديد البيانات المخزنة كملفات مساحة عمل بشكل مثالي لمجموعات البيانات الصغيرة التي قد تستخدم لمهام مثل الاختبار أثناء التطوير و QA. راجع ما هي ملفات مساحة العمل؟.

وحدات التخزين مقابل تكوينات عناصر السحابة القديمة

عند استخدام وحدات التخزين لإدارة الوصول إلى البيانات في تخزين الكائنات السحابية، يمكنك فقط استخدام مسار وحدات التخزين للوصول إلى البيانات، وتتوفر هذه المسارات مع جميع الحوسبة الممكنة لكتالوج Unity. لا يمكنك تسجيل ملفات البيانات التي تدعم جداول كتالوج Unity باستخدام وحدات التخزين. توصي Databricks باستخدام أسماء الجداول بدلا من مسارات الملفات للتفاعل مع البيانات المنظمة المسجلة كجداول كتالوج Unity. راجع كيف تعمل المسارات للبيانات التي يديرها كتالوج Unity؟.

إذا كنت تستخدم أسلوبا قديما لتكوين الوصول إلى البيانات في تخزين كائن السحابة، فإن Azure Databricks يعود إلى أذونات قوائم التحكم في الوصول للجداول القديمة. يحتاج المستخدمون الذين يرغبون في الوصول إلى البيانات باستخدام عناوين URL السحابية من مستودعات SQL أو الحوسبة المكونة باستخدام وضع الوصول المشترك إلى ANY FILE الإذن. راجع التحكم في الوصول إلى جدول Hive metastore (قديم).

يوفر Azure Databricks العديد من واجهات برمجة التطبيقات لإدراج الملفات في تخزين كائن السحابة. تركز معظم الأمثلة في هذه المقالة على استخدام وحدات التخزين. للحصول على أمثلة حول التفاعل مع البيانات على تخزين الكائن المكون بدون وحدات تخزين، راجع سرد الملفات باستخدام معرفات URI.

استكشاف وحدات التخزين

يمكنك استخدام مستكشف الكتالوج لاستكشاف البيانات في وحدات التخزين ومراجعة تفاصيل وحدة التخزين. يمكنك فقط رؤية وحدات التخزين التي لديك أذونات لقراءةها، بحيث يمكنك الاستعلام عن جميع البيانات المكتشفة بهذه الطريقة.

يمكنك استخدام SQL لاستكشاف وحدات التخزين وبيانات التعريف الخاصة بها. لسرد الملفات في وحدات التخزين، يمكنك استخدام SQL أو %fs الأمر السحري أو أدوات Databricks المساعدة. عند التفاعل مع البيانات في وحدات التخزين، يمكنك استخدام المسار الذي يوفره كتالوج Unity، والذي يحتوي دائما على التنسيق التالي:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

عرض وحدات التخزين

SQL

قم بتشغيل الأمر التالي لمشاهدة قائمة وحدات التخزين في مخطط معين.

SHOW VOLUMES IN catalog_name.schema_name;

راجع إظهار وحدات التخزين.

مستكشف الكتالوج

لعرض وحدات التخزين في مخطط معين باستخدام مستكشف الكتالوج، قم بما يلي:

  1. حدد أيقونة الكتالوجأيقونة الكتالوج.
  2. حدد كتالوج.
  3. حدد مخططا.
  4. انقر فوق وحدات التخزين لتوسيع كافة وحدات التخزين في المخطط.

ملاحظة

إذا لم يتم تسجيل وحدات تخزين في مخطط، فلن يتم عرض خيار وحدات التخزين . بدلا من ذلك، سترى قائمة بالجداول المتوفرة.

راجع تفاصيل وحدة التخزين

SQL

قم بتشغيل الأمر التالي لوصف وحدة تخزين.

DESCRIBE VOLUME volume_name

راجع وصف وحدة التخزين.

مستكشف الكتالوج

انقر فوق اسم وحدة التخزين وحدد علامة التبويب تفاصيل لمراجعة تفاصيل وحدة التخزين.

عرض الملفات في وحدات التخزين

SQL

قم بتشغيل الأمر التالي لسرد الملفات في وحدة تخزين.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

مستكشف الكتالوج

انقر فوق اسم وحدة التخزين وحدد علامة التبويب تفاصيل لمراجعة تفاصيل وحدة التخزين.

٪fs

قم بتشغيل الأمر التالي لسرد الملفات في وحدة تخزين.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

أدوات Databricks المساعدة

قم بتشغيل الأمر التالي لسرد الملفات في وحدة تخزين.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

سرد الملفات باستخدام معرفات URI

يمكنك الاستعلام عن تخزين كائن السحابة الذي تم تكوينه باستخدام أساليب أخرى غير وحدات التخزين باستخدام معرفات URI. يجب أن تكون متصلا بالحساب بامتيازات للوصول إلى موقع السحابة. ANY FILE الإذن مطلوب على مستودعات SQL والحوسبة المكونة مع وضع الوصول المشترك.

ملاحظة

الوصول إلى URI إلى تخزين الكائن الذي تم تكوينه باستخدام وحدات التخزين غير مدعوم. لا يمكنك استخدام مستكشف الكتالوج لمراجعة محتويات تخزين الكائن غير المكون بوحدات التخزين.

تتضمن الأمثلة التالية أمثلة على عناوين URL للبيانات المخزنة مع Azure Data Lake Storage Gen2 وS3 وGCS.

SQL

قم بتشغيل الأمر التالي لسرد الملفات في تخزين كائن السحابة.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

٪fs

قم بتشغيل الأمر التالي لسرد الملفات في تخزين كائن السحابة.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

أدوات Databricks المساعدة

قم بتشغيل الأمر التالي لسرد الملفات في تخزين كائن السحابة.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")