استكشاف التخزين والعثور على ملفات البيانات
تركز هذه المقالة على اكتشاف واستكشاف الدلائل وملفات البيانات المدارة باستخدام وحدات تخزين كتالوج Unity، بما في ذلك الإرشادات المستندة إلى واجهة المستخدم لاستكشاف وحدات التخزين باستخدام مستكشف الكتالوج. توفر هذه المقالة أيضا أمثلة للاستكشاف البرمجي للبيانات في تخزين الكائنات السحابية باستخدام مسارات وحدة التخزين وعناوين URL السحابية.
توصي Databricks باستخدام وحدات التخزين لإدارة الوصول إلى البيانات في تخزين الكائنات السحابية. لمزيد من المعلومات حول الاتصال بالبيانات في تخزين كائن السحابة، راجع الاتصال بمصادر البيانات.
للحصول على معاينة كاملة لكيفية التفاعل مع الملفات في جميع المواقع، راجع العمل مع الملفات على Azure Databricks.
هام
عند البحث عن ملفات في واجهة مستخدم مساحة العمل، قد تكتشف ملفات البيانات المخزنة كملفات مساحة عمل. توصي Databricks باستخدام ملفات مساحة العمل بشكل أساسي للتعليمات البرمجية (مثل البرامج النصية والمكتبات) أو البرامج النصية للتهيئة أو ملفات التكوين. يجب تحديد البيانات المخزنة كملفات مساحة عمل بشكل مثالي لمجموعات البيانات الصغيرة التي قد تستخدم لمهام مثل الاختبار أثناء التطوير و QA. راجع ما هي ملفات مساحة العمل؟.
عند استخدام وحدات التخزين لإدارة الوصول إلى البيانات في تخزين الكائنات السحابية، يمكنك فقط استخدام مسار وحدات التخزين للوصول إلى البيانات، وتتوفر هذه المسارات مع جميع الحوسبة الممكنة لكتالوج Unity. لا يمكنك تسجيل ملفات البيانات التي تدعم جداول كتالوج Unity باستخدام وحدات التخزين. توصي Databricks باستخدام أسماء الجداول بدلا من مسارات الملفات للتفاعل مع البيانات المنظمة المسجلة كجداول كتالوج Unity. راجع كيف تعمل المسارات للبيانات التي يديرها كتالوج Unity؟.
إذا كنت تستخدم أسلوبا قديما لتكوين الوصول إلى البيانات في تخزين كائن السحابة، فإن Azure Databricks يعود إلى أذونات قوائم التحكم في الوصول للجداول القديمة. يحتاج المستخدمون الذين يرغبون في الوصول إلى البيانات باستخدام عناوين URL السحابية من مستودعات SQL أو الحوسبة المكونة باستخدام وضع الوصول المشترك إلى ANY FILE
الإذن. راجع التحكم في الوصول إلى جدول Hive metastore (قديم).
يوفر Azure Databricks العديد من واجهات برمجة التطبيقات لإدراج الملفات في تخزين كائن السحابة. تركز معظم الأمثلة في هذه المقالة على استخدام وحدات التخزين. للحصول على أمثلة حول التفاعل مع البيانات على تخزين الكائن المكون بدون وحدات تخزين، راجع سرد الملفات باستخدام معرفات URI.
يمكنك استخدام مستكشف الكتالوج لاستكشاف البيانات في وحدات التخزين ومراجعة تفاصيل وحدة التخزين. يمكنك فقط رؤية وحدات التخزين التي لديك أذونات لقراءةها، بحيث يمكنك الاستعلام عن جميع البيانات المكتشفة بهذه الطريقة.
يمكنك استخدام SQL لاستكشاف وحدات التخزين وبيانات التعريف الخاصة بها. لسرد الملفات في وحدات التخزين، يمكنك استخدام SQL أو %fs
الأمر السحري أو أدوات Databricks المساعدة. عند التفاعل مع البيانات في وحدات التخزين، يمكنك استخدام المسار الذي يوفره كتالوج Unity، والذي يحتوي دائما على التنسيق التالي:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
قم بتشغيل الأمر التالي لمشاهدة قائمة وحدات التخزين في مخطط معين.
SHOW VOLUMES IN catalog_name.schema_name;
راجع إظهار وحدات التخزين.
لعرض وحدات التخزين في مخطط معين باستخدام مستكشف الكتالوج، قم بما يلي:
- حدد أيقونة الكتالوج.
- حدد كتالوج.
- حدد مخططا.
- انقر فوق وحدات التخزين لتوسيع كافة وحدات التخزين في المخطط.
ملاحظة
إذا لم يتم تسجيل وحدات تخزين في مخطط، فلن يتم عرض خيار وحدات التخزين . بدلا من ذلك، سترى قائمة بالجداول المتوفرة.
قم بتشغيل الأمر التالي لوصف وحدة تخزين.
DESCRIBE VOLUME volume_name
راجع وصف وحدة التخزين.
انقر فوق اسم وحدة التخزين وحدد علامة التبويب تفاصيل لمراجعة تفاصيل وحدة التخزين.
قم بتشغيل الأمر التالي لسرد الملفات في وحدة تخزين.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
انقر فوق اسم وحدة التخزين وحدد علامة التبويب تفاصيل لمراجعة تفاصيل وحدة التخزين.
قم بتشغيل الأمر التالي لسرد الملفات في وحدة تخزين.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
قم بتشغيل الأمر التالي لسرد الملفات في وحدة تخزين.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
يمكنك الاستعلام عن تخزين كائن السحابة الذي تم تكوينه باستخدام أساليب أخرى غير وحدات التخزين باستخدام معرفات URI. يجب أن تكون متصلا بالحساب بامتيازات للوصول إلى موقع السحابة. ANY FILE
الإذن مطلوب على مستودعات SQL والحوسبة المكونة مع وضع الوصول المشترك.
ملاحظة
الوصول إلى URI إلى تخزين الكائن الذي تم تكوينه باستخدام وحدات التخزين غير مدعوم. لا يمكنك استخدام مستكشف الكتالوج لمراجعة محتويات تخزين الكائن غير المكون بوحدات التخزين.
تتضمن الأمثلة التالية أمثلة على عناوين URL للبيانات المخزنة مع Azure Data Lake Storage Gen2 وS3 وGCS.
قم بتشغيل الأمر التالي لسرد الملفات في تخزين كائن السحابة.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
قم بتشغيل الأمر التالي لسرد الملفات في تخزين كائن السحابة.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
قم بتشغيل الأمر التالي لسرد الملفات في تخزين كائن السحابة.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")