التحقق من الوصول إلى الموارد باستخدام الهويات المدارة
توفر الهويات المدارة طريقة آمنة وآلية لمصادقة مساحات عمل كتالوج Unity الخاصة بك على موارد التخزين دون إدارة بيانات الاعتماد في ملفات الكود أو الإعدادات.
كمهندس بيانات، تستخدم الهويات المدارة لإنشاء بيانات اعتماد التخزين في كتالوج Unity. تشكل هذه الاعتمادات الأساس للوصول إلى البيانات الخارجية عبر جداول خارجية أو قراءة الملفات مباشرة من التخزين السحابي. على عكس طرق المصادقة التقليدية التي تتطلب منك إنشاء وتخزين وتدوير الأسرار، تلغي الهويات المدارة عبء إدارة الاعتمادات مع توفير أمان على مستوى المؤسسة.
فهم الهويات المدارة لكتالوج Unity
الهويات المدارة هي موارد Azure توفر هوية لتطبيقاتك عند الاتصال بخدمات تدعم مصادقة Microsoft Entra ID. يدير Azure دورة حياة هذه الهويات تلقائيا، مما يزيل عبء تدوير الاعتمادات والإدارة السرية عن فريقك.
مع Unity Catalog، تستخدم الهويات المدارة عبر موصل وصول Azure Databricks. يعمل هذا المورد الأول من Azure كجسر بين هويتك المدارة وحسابك في Azure Databricks. يمكن أن يحتوي موصل الوصول إما على هوية مدارة معينة من النظام ينشئها Azure تلقائيا، أو هوية أو أكثر مدارة معينة من قبل المستخدم تقوم بإنشائها وإدارتها بشكل منفصل.
هناك حالتان رئيسيتان للهويات المدارة في كتالوج Unity. أولا، تستخدمها للاتصال بحساب التخزين الجذري في المتجر الافتراضي حيث يخزن Unity Catalog الجداول المدارة. ثانيا، تستخدمها للوصول إلى حسابات تخزين خارجية لقراءة الملفات أو إنشاء جداول خارجية. كلا السيناريوهين يستخدمان نفس نهج التكوين لكنهما يخدمان أغراضا مختلفة في بنية بياناتك.
Note
الهويات المدارة المعينة من قبل النظام مرتبطة بدورة حياة موصل الوصول. إذا حذفت موصل الوصول، يقوم Azure تلقائيا بحذف الهوية المدارة المعينة من قبل النظام. تستمر الهويات المدارة المعينة من قبل المستخدم بشكل مستقل ويمكن ربطها بعدة موصلات وصول.
إنشاء بيانات اعتماد التخزين باستخدام هويات مدارة
تغليف بيانات الاعتماد في Unity Catalog معلومات المصادقة اللازمة للوصول إلى التخزين السحابي. عند إنشاء بيانات اعتماد تخزين باستخدام هوية مدارة، فإنك تنشئ مسار اتصال آمن يمكن ل Unity Catalog استخدامه للوصول إلى البيانات نيابة عن المستخدمين المصرح لهم.
تبدأ العملية في بوابة Azure حيث تنشئ موصل وصول ل Azure Databricks. تختار نفس منطقة Azure التي تحدد فيها حساب التخزين لتقليل التأخير وتجنب تكاليف نقل البيانات عبر المناطق. أثناء الإنشاء، تختار ما إذا كنت ستفعل هوية مدارة معينة من النظام أو ترفق هويات مدارة معينة من المستخدم. يتلقى المورد معرفا فريدا في الصيغة /subscriptions/{subscription-id}/resourceGroups/{resource-group}/providers/Microsoft.Databricks/accessConnectors/{connector-name}.
بعد إنشاء موصل الوصول، تمنح أذونات الهوية المدارة على حساب Azure Data Lake Storage الخاص بك. دور مساهم بيانات كتلة التخزين يوفر وصولا للقراءة والكتابة إلى بيانات الكتل، وهو عادة ما تحتاجه لعمليات كتالوج Unity. تقوم بتعيين هذا الدور إما على مستوى حساب التخزين للوصول الواسع أو على مستوى الحاوية للتحكم الدقيق أكثر.
لتحقيق أفضل أداء، يجب عليك أيضا منح دور مساهم بيانات طابور التخزين لتمكين إشعارات أحداث الملفات. تسمح هذه التكوين ل Azure Databricks بالاشتراك لإشعارات التغيير من حساب التخزين الخاص بك، مما يجعل عمليات معالجة الملفات أكثر كفاءة. عند إضافة أو تعديل الملفات في حاويات التخزين الخاصة بك، يتلقى كتالوج Unity إشعارات فورية بدلا من البحث عن تغييرات.
مع اكتمال تكوين Azure، تقوم بإنشاء بيانات التخزين في كتالوج Unity. في مستكشف الكتالوج، تنتقل إلى تبويب بيانات الاعتماد وتنشئ بيانات اعتماد تخزين جديدة. تختار Azure Managed Identity كنوع بيانات الاعتماد وتوفر معرف موارد موصل الوصول. إذا كنت تستخدم هوية مدارة معينة من المستخدم، فأنت أيضا تضيف معرف المورد الخاص بها. يحصل اعتماد التخزين على اسم فريد تشير إليه عند إنشاء المواقع الخارجية.
مهم
لإنشاء بيانات اعتماد التخزين، تحتاج إلى امتياز إنشاء بيانات اعتماد التخزين في مخزن Unity Catalog الميتا. مسؤولو الحسابات ومديري المتجر الفوقي لديهم هذا الامتياز بشكل افتراضي. بدون هذا الامتياز، لا يمكنك إنشاء بيانات اعتماد تخزين جديدة ولكن لا تزال تستخدم بيانات اعتماد موجودة لديك صلاحيات للوصول إليها.
الوصول إلى التخزين الخارجي من خلال بيانات الاعتماد على التخزين
تعمل بيانات اعتماد التخزين مع مواقع خارجية لتوفير وصول محكم إلى التخزين السحابي الخاص بك. الموقع الخارجي يجمع بين بيانات التخزين ومسار تخزين سحابي محدد، مما يخلق نقطة وصول مدارة يمكنك منح الأصوات عليها.
عند إنشاء موقع خارجي، تحدد مسارا في حساب Azure Data Lake Storage الخاص بك باستخدام البروتوكول abfss:// . على سبيل المثال، abfss://data@mystorageaccount.dfs.core.windows.net/raw/ يشير إلى المجلد الخام في حاوية البيانات. تربط هذا المسار ببيانات التخزين الخاصة بك، والتي توفر آلية المصادقة. يمكن للمستخدمين الذين لديهم صلاحيات على الموقع الخارجي القراءة من ذلك المسار أو الكتابة عليه، حسب صلاحياتهم الخاصة.
توفر هذه البنية عدة فوائد لفرق هندسة البيانات. يمكنك إنشاء عدة مواقع خارجية تستخدم نفس بيانات التخزين ولكن تشير إلى مسارات مختلفة، مما يسمح لك بتنظيم الوصول إلى مجموعات بيانات أو بيئات مختلفة. يمكنك منح مجموعات مختلفة من المستخدمين وصولا إلى مواقع خارجية مختلفة، حتى لو كانوا جميعا يستخدمون نفس حساب التخزين الأساسي. يمكنك وضع علامة اعتماد التخزين على أنها للقراءة فقط، مما يمنع إنشاء مواقع خارجية تسمح بالوصول إلى الكتابة.
المواقع الخارجية تدعم أيضا ربط مساحة العمل، مما يقيد الوصول إلى مساحات عمل محددة في المتجر الفوقي الخاص بك. هذه الميزة ذات قيمة عند استخدام مساحات العمل لفصل بيئات الإنتاج والتطوير. يمكن ربط الموقع الخارجي الذي يشير إلى بيانات الإنتاج فقط بمساحة العمل الإنتاجية، مما يضمن أن مساحات العمل التطويرية لا يمكنها الوصول أو تعديل بيانات الإنتاج عن طريق الخطأ. يمكنك أيضا ربط بيانات اعتماد التخزين نفسها بمساحات عمل محددة، والتحكم في أي مساحات العمل يمكنها استخدام تلك البيانات لإنشاء مواقع خارجية جديدة.
# Create an external table using a managed identity-backed external location
CREATE EXTERNAL TABLE sales_data
USING DELTA
LOCATION 'abfss://data@mystorageaccount.dfs.core.windows.net/sales/';
# Query the external table
SELECT * FROM sales_data WHERE sale_date >= '2024-01-01';
عندما تصل مساحة عمل Unity Catalog إلى البيانات عبر بيانات التخزين، يتم التحقق من الهوية المدارة إلى Azure Data Lake Storage. لا تحتاج مساحة العمل إلى معرفة بيانات الاعتماد الفعلية—بل تعرض فقط الهوية المدارة. يتحقق Azure من الهوية ويتحقق مما إذا كانت الأدوار المعينة تسمح بالعملية المطلوبة. يحدث هذا بشفافية في الخلفية، دون الحاجة إلى كود إضافي أو تكوين في دفاتر ملاحظاتك.
Tip
عند العمل مع حسابات تخزين مقيدة بالشبكة، تأكد من أن شبكة مساحة العمل الافتراضية يمكنها الوصول إلى حساب التخزين. تتولى الهويات المدارة المصادقة، لكن يجب أن يكون الاتصال بالشبكة قد تم تأسيسه بالفعل من خلال نقاط النهاية الخاصة أو نقاط الخدمة.