استخدام Azure Databricks ضمن التحليلات على نطاق السحابة في Azure
Azure Databricks هو نظام أساسي لتحليلات البيانات محسن للنظام الأساسي ل Microsoft Azure Cloud Services. يوفر Azure Databricks بيئتين لتطوير تطبيقات كثيفة البيانات:
Azure Databricks SQL الذي يسمح لك بتشغيل استعلامات SQL المخصصة السريعة على مستودع البيانات الخاص بك.
Azure Databricks Data Science Engineering & (تسمى أحيانا ببساطة "مساحة العمل") هي نظام أساسي للتحليلات يستند إلى Apache Spark. يتم دمجه مع Azure لتوفير إعداد بنقرة واحدة وسير عمل مبسط ومساحة عمل تفاعلية تمكن التعاون بين مهندسي البيانات وعلماء البيانات ومهندسي التعلم الآلي.
بالنسبة إلى التحليلات على نطاق السحابة، سنركز على Azure Databricks Data Science & Engineering.
نظرة عامة
لكل منطقة هبوط بيانات تقوم بنشرها، لديك خيار نشر مساحة عمل مشتركة. واحد لاستيعاب البيانات غير محدد وآخر للتحليات.
- ستتصل مساحة العمل الهندسية Azure Databricks لاستيعابها ومعالجتها ب Azure Data Lake عبر أساسيات خدمة Azure. يتم استدعاؤه بواسطة الاستيعاب غير الظاهر للبيانات.
- يمكن توفير مساحة عمل تحليلات Azure Databricks لجميع علماء البيانات وفرق عمليات البيانات. ستتصل مساحة العمل هذه ب Azure Data Lake باستخدام Azure Active Directory (Azure AD) Pass-through Authentication. يمكنك مشاركة تحليلات Azure Databricks ومساحة عمل علم البيانات عبر منطقة البيانات المنتقل إليها مع جميع المستخدمين الذين لديهم حق الوصول إلى مساحة العمل.
إذا كان لديك محرك استيعاب غير محدد للبيانات تلقائيا، فإن مساحة العمل الهندسية Azure Databricks تستخدم كلا من مثيل Azure Key Vault الذي تم إنشاؤه في مجموعة موارد خدمة بيانات تعريف Azure لتشغيل مسارات استيعاب البيانات من الخام إلى الإثراء.
يجب أن تحتوي مساحة عمل تحليلات Azure Databricks على نهج نظام المجموعة التي تتطلب منك إنشاء مجموعات تزامن عالية. يسمح هذا النوع من نظام المجموعة باستكشاف مستودع البيانات باستخدام Azure AD تمرير بيانات الاعتماد. لمزيد من المعلومات، راجع التحكم في الوصول وتكوينات مستودع البيانات في Azure Data Lake Storage.
تكوين Azure Databricks
يعتمد توزيع Azure Databricks جزئيا على المعلمات عبر قالب Azure Resource Manager والبرامج النصية YAML، ولكنه يتطلب أيضا بعض التدخل اليدوي لتكوين جميع مساحات العمل.
يجب أن تستخدم جميع مساحات عمل Azure Databricks الخطة المتميزة، والتي توفر الميزات المطلوبة التالية:
- التحجيم التلقائي المحسن للحساب
- مصادقة مرور بيانات الاعتماد Azure AD
- المصادقة الشرطية
- التحكم في الوصول المستند إلى الدور لدفاتر الملاحظات والمجموعات والوظائف والجداول
- سجلات التدقيق
للمحاذاة مع التحليلات على نطاق السحابة، نوصي بتكوين خيارات النشر الافتراضية التالية لجميع مساحات العمل:
- تتصل مساحات عمل Azure Databricks بمثيل Apache Hive metastore خارجي في منطقة البيانات المنتقل إليها.
- تكوين كل مساحة عمل لإرسال تسجيل تشخيص Databricks إلى Azure Log Analytics في databricks-monitoring-rg
- تنفيذ نهج نظام المجموعة للحد من القدرة على إنشاء مجموعات استنادا إلى مجموعة من القواعد. لمزيد من المعلومات، راجع إدارة نهج نظام المجموعة.
- تحديد نهج نظام مجموعة متعددة. كجزء من عملية الإلحاق، قم بتعيين إذن كل مجموعة مستهدفة لاستخدامها من قبل فريق عمليات المنطقة المنتقل إليها للبيانات. بشكل افتراضي، يتم منح إذن إنشاء نظام المجموعة فقط لفريق العمليات. يتم منح فرق أو مجموعات مختلفة الإذن لاستخدام نهج نظام المجموعة.
- استخدم نهج نظام المجموعة مع تجمعات Azure Databricks لتقليل أوقات بدء المجموعة والتحجيم التلقائي من خلال الحفاظ على مجموعة من المثيلات الخاملة الجاهزة للاستخدام. لمزيد من المعلومات، راجع التجمعات.
- استرداد جميع البيانات السرية التشغيلية ل Azure Databricks، مثل بيانات اعتماد SPN وسلاسل الاتصال، من مثيل Azure Key Vault.
- تكوين تطبيق مؤسسة منفصل لكل مساحة عمل للاستخدام مع SCIM (نظام لإدارة الهوية عبر المجالات). الارتباط بمساحة عمل Azure Databricks للتحكم في الوصول والأذونات لكل مساحة عمل. لمزيد من المعلومات، راجع توفير المستخدمين والمجموعات باستخدام SCIMوتكوين تزويد SCIM Microsoft Azure Active Directory.
تحذير
يؤثر الفشل في تكوين مساحة عمل Azure Databricks لاستخدام واجهة Azure Databricks SCIM على كيفية توفير عناصر تحكم الأمان. ينتقل من عملية تلقائية إلى عملية يدوية ويكسر جميع مسارات CI/CD للتوزيع.
يتم تعيين خيارات التحكم في الوصول التالية لجميع مساحات عمل Databricks:
- التحكم في رؤية مساحة العمل: ممكن (افتراضي: معطل)
- التحكم في رؤية نظام المجموعة: ممكن (افتراضي: معطل)
- عنصر تحكم رؤية الوظيفة: ممكن (افتراضي: معطل)
قد تحتاج إلى تمكين الخيارات التالية لمساحة عمل تحليلات Azure Databricks:
- تصدير دفتر الملاحظات: معطل (افتراضي: ممكن)
- ميزات حافظة جدول دفتر الملاحظات: معطل (افتراضي: ممكن)
- التحكم في الوصول إلى الجدول: ممكن (افتراضي: معطل)
- الوصول المشروط لـ Azure Active Directory
توزيع Azure Databricks
إذا قمت بتوزيع مساحات عمل Azure Databricks كجزء من نشر منطقة هبوط بيانات جديدة. تعرض هذه الصورة التالية نموذج سير عمل لنشر بيئة Azure Databricks في التحليلات على نطاق السحابة.
- تتأكد عملية التوفير أولا من وجود مثيل Apache Hive metastore في منطقة هبوط البيانات. إذا فشل في العثور على Apache Hive metastore، فإنه يتوقف ويثير خطأ.
- عند العثور على Apache Hive metastore بنجاح، يتم إنشاء مساحة عمل.
- تتحقق العملية من مساحة عمل Log Analytics في منطقة البيانات المنتقل إليها. إذا فشل في العثور على مساحة عمل Log Analytics، فإنه يتوقف ويثير خطأ.
- لكل مساحة عمل، تقوم بإنشاء تطبيق Azure AD وتكوين SCIM.
لمساحة عمل استيعاب Azure Databricks:
- تقوم العملية بتكوين مساحة العمل مع الوصول الأساسي للخدمة.
- يتم نشر نهج هندسة البيانات التي تم تحديدها من قبل فريق عمليات النظام الأساسي للبيانات.
- إذا طلب فريق عمليات المنطقة المنتقل إليها البيانات تجمعات أو مجموعات Databricks، فيمكن دمجها في عملية التوزيع.
- وهو يتيح خيارات مساحة العمل الخاصة لمساحة عمل هندسة Azure Databricks.
لمساحة عمل تحليلات Azure Databricks:
- تنشر العملية النهج التحليلية للبيانات التي تم تعريفها من قبل فريق عمليات النظام الأساسي للبيانات.
- إذا طلب فريق عمليات المنطقة المنتقل إليها البيانات تجمعات أو مجموعات Databricks، فيمكن دمجها في عملية التوزيع.
- وهو يتيح خيارات مساحة العمل الخاصة لمساحة عمل هندسة Azure Databricks.
مخزن بيانات تعريف الخلية الخارجي
في توزيع مساحة عمل Azure Databricks:
- يقوم برنامج نصي جديد ل init العمومي بتكوين إعدادات Apache Hive metastore لجميع المجموعات. تتم إدارة هذا البرنامج النصي بواسطة واجهة برمجة تطبيقات البرامج النصية العمومية الجديدة init .
توجد واجهة برمجة تطبيقات البرامج النصية العمومية الجديدة في المعاينة العامة. ميزات المعاينة العامة في Azure Databricks جاهزة لبيئات الإنتاج ويدعمها فريق الدعم. لمزيد من المعلومات، راجع إصدارات معاينة Azure Databricks.
- يستخدم هذا الحل قاعدة بيانات Azure ل MySQL لتخزين مثيل Apache Hive metastore. تم اختيار قاعدة البيانات هذه لفعالية التكلفة وتوافقها العالي مع Apache Hive.
الخطوات التالية
تأخذ التحليلات على نطاق السحابة الإرشادات التالية في الاعتبار لدمج Azure Databricks: