إنشاء بيانات اعتماد تخزين للاتصال ب Azure Data Lake Storage Gen2

توضح هذه المقالة كيفية إنشاء بيانات اعتماد تخزين في كتالوج Unity للاتصال ب Azure Data Lake Storage Gen2.

لإدارة الوصول إلى التخزين السحابي الأساسي الذي يحتوي على جداول ووحدات تخزين، يستخدم كتالوج Unity أنواع الكائنات التالية:

  • تغلف بيانات اعتماد التخزين بيانات اعتماد سحابية طويلة الأجل توفر الوصول إلى التخزين السحابي.
  • تحتوي المواقع الخارجية على مرجع إلى بيانات اعتماد تخزين ومسار تخزين سحابي.

لمزيد من المعلومات، راجع الاتصال بمساحة تخزين الكائنات السحابية باستخدام كتالوج Unity.

يدعم كتالوج Unity خيارين للتخزين السحابي ل Azure Databricks: حاويات Azure Data Lake Storage Gen2 ومستودعات Cloudflare R2. تم تصميم Cloudflare R2 بشكل أساسي لحالات استخدام مشاركة دلتا التي تريد فيها تجنب رسوم خروج البيانات. Azure Data Lake Storage Gen2 مناسب لمعظم حالات الاستخدام الأخرى. تركز هذه المقالة على إنشاء بيانات اعتماد التخزين لحاويات Azure Data Lake Storage Gen2. بالنسبة إلى Cloudflare R2، راجع إنشاء بيانات اعتماد تخزين للاتصال ب Cloudflare R2.

لإنشاء بيانات اعتماد تخزين للوصول إلى حاوية Azure Data Lake Storage Gen2، يمكنك إنشاء موصل وصول Azure Databricks يشير إلى هوية مدارة من Azure، وتعيين أذونات لها على حاوية التخزين. ثم يمكنك الرجوع إلى موصل الوصول هذا في تعريف بيانات اعتماد التخزين.

المتطلبات

في Azure Databricks:

  • مساحة عمل Azure Databricks ممكنة ل Unity Catalog.

  • CREATE STORAGE CREDENTIAL امتياز على مخزن بيانات تعريف كتالوج Unity المرفق بمساحة العمل. يتمتع مسؤولو الحساب ومسؤولو metastore بهذا الامتياز بشكل افتراضي.

    إشعار

    يجب أن يكون لكيانات الخدمة دور مسؤول الحساب لإنشاء بيانات اعتماد تخزين تستخدم هوية مدارة. لا يمكنك التفويض CREATE STORAGE CREDENTIAL إلى كيان خدمة. ينطبق هذا على كل من أساسيات خدمة Azure Databricks وMicrosoft Entra ID (المعروف سابقا ب Azure Active Directory) أساسيات الخدمة.

في مستأجر Azure الخاص بك:

  • حاوية تخزين Azure Data Lake Storage Gen2 في نفس المنطقة مثل مساحة العمل التي تريد الوصول إلى البيانات منها.

    يجب أن يحتوي حساب تخزين Azure Data Lake Storage Gen2 على مساحة اسم هرمية.

  • المساهم أو المالك لمجموعة موارد Azure.

  • المالك أو المستخدم الذي له دور مسؤول وصول المستخدم Azure RBAC على حساب التخزين.

إنشاء بيانات اعتماد تخزين باستخدام هوية مدارة

يمكنك استخدام هوية مدارة من Azure أو كيان خدمة كهوية تخول الوصول إلى حاوية التخزين الخاصة بك. يوصى بشدة بالهويات المدارة. لديهم فائدة السماح لكتالوج Unity بالوصول إلى حسابات التخزين المحمية بقواعد الشبكة، وهو أمر غير ممكن باستخدام أساسيات الخدمة، ويزيلون الحاجة إلى إدارة البيانات السرية وتدويرها. إذا كنت ترغب في استخدام كيان خدمة، فشاهد إنشاء تخزين مدار لكتالوج Unity باستخدام كيان خدمة (قديم) .

  1. في مدخل Microsoft Azure، أنشئ موصل وصول Azure Databricks وقم بتعيين أذونات له على حاوية التخزين التي ترغب في الوصول إليها، باستخدام الإرشادات الموجودة في تكوين هوية مدارة لكتالوج Unity.

    موصل الوصول إلى Azure Databricks هو مورد Azure تابع لجهة أولى يتيح لك توصيل الهويات المدارة بحساب Azure Databricks. يجب أن يكون لديك دور المساهم أو أعلى على مورد موصل الوصول في Azure لإضافة بيانات اعتماد التخزين.

    دون معرف مورد موصل الوصول.

  2. سجل الدخول إلى مساحة عمل Azure Databricks الممكنة في كتالوج Unity كمستخدم لديه الامتياز CREATE STORAGE CREDENTIAL .

    يتضمن كل من مسؤول metastore وأدوار مسؤول الحساب هذا الامتياز. إذا قمت بتسجيل الدخول ككيان خدمة (سواء كان معرف Microsoft Entra أو كيان خدمة Azure Databricks الأصلي)، يجب أن يكون لديك دور مسؤول الحساب لإنشاء بيانات اعتماد تخزين تستخدم هوية مدارة.

  3. انقر فوق أيقونة الكتالوج كتالوج.

  4. في أعلى جزء Catalog، انقر فوق الأيقونة أيقونة Add وحدد Add a storage credential من القائمة.

    لا يظهر هذا الخيار إذا لم يكن لديك الامتياز CREATE STORAGE CREDENTIAL .

    بدلا من ذلك، من صفحة الوصول السريع، انقر فوق الزر بيانات > خارجية، وانتقل إلى علامة التبويب بيانات اعتماد التخزين، وحدد إنشاء بيانات اعتماد.

  5. حدد نوع بيانات اعتماد Azure Managed Identity.

  6. أدخل اسما لبيانات الاعتماد، وأدخل معرف مورد موصل الوصول بالتنسيق:

    /subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
    
  7. (اختياري) إذا قمت بإنشاء موصل الوصول باستخدام هوية مدارة معينة من قبل المستخدم، أدخل معرف المورد للهوية المدارة في حقل معرف الهوية المدارة المعين من قبل المستخدم، بالتنسيق:

    /subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>
    
  8. (اختياري) إذا كنت تريد أن يكون للمستخدمين حق الوصول للقراءة فقط إلى المواقع الخارجية التي تستخدم بيانات اعتماد التخزين هذه، فحدد قراءة فقط. لمزيد من المعلومات، راجع وضع علامة على بيانات اعتماد التخزين للقراءة فقط.

  9. انقر فوق حفظ.

  10. (اختياري) ربط بيانات اعتماد التخزين بمساحات عمل معينة.

    بشكل افتراضي، يمكن لأي مستخدم متميز استخدام بيانات اعتماد التخزين على أي مساحة عمل مرفقة ب metastore. إذا كنت تريد السماح بالوصول فقط من مساحات عمل معينة، فانتقل إلى علامة التبويب مساحات العمل وقم بتعيين مساحات العمل. راجع (اختياري) تعيين بيانات اعتماد تخزين لمساحات عمل معينة.

  11. إنشاء موقع خارجي يشير إلى بيانات اعتماد التخزين هذه.

(اختياري) تعيين بيانات اعتماد تخزين لمساحات عمل معينة

هام

هذه الميزة في المعاينة العامة.

بشكل افتراضي، يمكن الوصول إلى بيانات اعتماد التخزين من جميع مساحات العمل في metastore. وهذا يعني أنه إذا تم منح المستخدم امتيازا (مثل CREATE EXTERNAL LOCATION) على بيانات اعتماد التخزين هذه، يمكنه ممارسة هذا الامتياز من أي مساحة عمل مرفقة بمخزن بيانات التعريف. إذا كنت تستخدم مساحات العمل لعزل الوصول إلى بيانات المستخدم، فقد تحتاج إلى السماح بالوصول إلى بيانات اعتماد التخزين فقط من مساحات عمل معينة. تعرف هذه الميزة باسم ربط مساحة العمل أو عزل بيانات اعتماد التخزين.

حالة الاستخدام النموذجية لربط بيانات اعتماد التخزين بمساحات عمل معينة هي السيناريو الذي يقوم فيه مسؤول السحابة بتكوين بيانات اعتماد تخزين باستخدام بيانات اعتماد حساب سحابة الإنتاج، وتريد التأكد من أن مستخدمي Azure Databricks يستخدمون بيانات الاعتماد هذه لإنشاء مواقع خارجية فقط في مساحة عمل الإنتاج.

لمزيد من المعلومات حول ربط مساحة العمل، راجع (اختياري) تعيين موقع خارجي لمساحات عمل معينة والحد من الوصول إلى الكتالوج إلى مساحات عمل معينة.

إشعار

تتم الإشارة إلى روابط مساحة العمل عند ممارسة الامتيازات مقابل بيانات اعتماد التخزين. على سبيل المثال، إذا قام مستخدم بإنشاء موقع خارجي باستخدام بيانات اعتماد تخزين، يتم التحقق من ربط مساحة العمل على بيانات اعتماد التخزين فقط عند إنشاء الموقع الخارجي. بعد إنشاء الموقع الخارجي، سيعمل بشكل مستقل عن روابط مساحة العمل المكونة على بيانات اعتماد التخزين.

ربط بيانات اعتماد التخزين إلى مساحة عمل واحدة أو أكثر

لتعيين بيانات اعتماد تخزين لمساحات عمل معينة، يمكنك استخدام مستكشف الكتالوج أو Databricks CLI.

الأذونات المطلوبة: مسؤول Metastore أو مالك بيانات اعتماد التخزين.

إشعار

يمكن لمسؤولي Metastore رؤية جميع بيانات اعتماد التخزين في metastore باستخدام مستكشف الكتالوج - ويمكن لمالكي بيانات اعتماد التخزين رؤية جميع بيانات اعتماد التخزين التي يمتلكونها في metastore - بغض النظر عما إذا تم تعيين بيانات اعتماد التخزين إلى مساحة العمل الحالية. تظهر بيانات اعتماد التخزين التي لم يتم تعيينها إلى مساحة العمل باللون الرمادي.

مستكشف الكتالوج

  1. سجل الدخول إلى مساحة عمل مرتبطة ب metastore.

  2. في الشريط الجانبي، انقر فوق أيقونة الكتالوج كتالوج.

  3. في أعلى جزء الكتالوج، انقر فوق أيقونة أيقونة الترس الترس وحدد بيانات اعتماد التخزين.

    بدلا من ذلك، من صفحة الوصول السريع، انقر فوق الزر بيانات > خارجية وانتقل إلى علامة التبويب بيانات اعتماد التخزين.

  4. حدد بيانات اعتماد التخزين وانتقل إلى علامة التبويب مساحات العمل.

  5. في علامة التبويب مساحات العمل، قم بإلغاء تحديد خانة الاختيار كافة مساحات العمل التي لديها حق الوصول .

    إذا كانت بيانات اعتماد التخزين الخاصة بك مرتبطة بالفعل بمساحة عمل واحدة أو أكثر، يتم مسح خانة الاختيار هذه بالفعل.

  6. انقر فوق تعيين إلى مساحات العمل وأدخل مساحات العمل التي تريد تعيينها أو ابحث عنها.

لإبطال الوصول، انتقل إلى علامة التبويب مساحات العمل، وحدد مساحة العمل، وانقر فوق إبطال. للسماح بالوصول من جميع مساحات العمل، حدد خانة الاختيار كافة مساحات العمل التي لديها حق الوصول .

CLI

هناك مجموعتا أوامر Databricks CLI وخطوتان مطلوبتان لتعيين بيانات اعتماد تخزين إلى مساحة عمل.

في الأمثلة التالية، استبدل <profile-name> باسم ملف تعريف تكوين مصادقة Azure Databricks. يجب أن يتضمن قيمة الرمز المميز للوصول الشخصي، بالإضافة إلى اسم مثيل مساحة العمل ومعرف مساحة العمل لمساحة العمل حيث قمت بإنشاء رمز الوصول الشخصي المميز. راجع مصادقة الرمز المميز للوصول الشخصي ل Azure Databricks.

  1. storage-credentials استخدم أمر مجموعة update الأوامر لتعيين بيانات اعتماد isolation mode التخزين إلى ISOLATED:

    databricks storage-credentials update <my-storage-credential> \
    --isolation-mode ISOLATED \
    --profile <profile-name>
    

    الإعداد الافتراضي isolation-mode هو OPEN لكافة مساحات العمل المرفقة ب metastore.

  2. workspace-bindings استخدم أمر مجموعة update-bindings الأوامر لتعيين مساحات العمل إلى بيانات اعتماد التخزين:

    databricks workspace-bindings update-bindings storage-credential <my-storage-credential> \
    --json '{
      "add": [{"workspace_id": <workspace-id>}...],
      "remove": [{"workspace_id": <workspace-id>}...]
    }' --profile <profile-name>
    

    استخدم الخاصيتين "add" و "remove" لإضافة روابط مساحة العمل أو إزالتها.

    إشعار

    ربط للقراءة فقط (BINDING_TYPE_READ_ONLY) غير متوفر لبيانات اعتماد التخزين. لذلك لا يوجد سبب لتعيين binding_type ربط بيانات اعتماد التخزين.

لسرد كافة تعيينات مساحة العمل لبيانات اعتماد التخزين، استخدم workspace-bindings أمر مجموعة get-bindings الأوامر:

databricks workspace-bindings get-bindings storage-credential <my-storage-credential> \
--profile <profile-name>

إلغاء ربط بيانات اعتماد التخزين من مساحة عمل

يتم تضمين إرشادات إبطال الوصول إلى مساحة العمل إلى بيانات اعتماد التخزين باستخدام مستكشف الكتالوج أو workspace-bindings مجموعة أوامر CLI في ربط بيانات اعتماد التخزين إلى مساحة عمل واحدة أو أكثر.

الخطوات التالية

يمكنك عرض وتحديث وحذف ومنح المستخدمين الآخرين الإذن لاستخدام بيانات اعتماد التخزين. راجع إدارة بيانات اعتماد التخزين.

يمكنك تعريف المواقع الخارجية باستخدام بيانات اعتماد التخزين. راجع إنشاء بيانات اعتماد تخزين للاتصال ب Azure Data Lake Storage Gen2.