بنية تحليلات حديثة باستخدام Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

أفكار الحل

تصف هذه المقالة فكرة الحل. يمكن لمهندس السحابة الخاص بك استخدام هذه الإرشادات للمساعدة في تصور المكونات الرئيسية لتنفيذ نموذجي لهذه البنية. استخدم هذه المقالة كنقطة بداية لتصميم حل جيد التصميم يتوافق مع المتطلبات المحددة لحمل العمل الخاص بك.

يوضح هذا الحل بنية بيانات حديثة. يشكل Azure Databricks جوهر الحل. يعمل هذا النظام الأساسي بسلاسة مع خدمات أخرى، مثل Azure Data Lake Storage Gen2 وAzure Data Factory وAzure Synapse Analytics وPower BI.

Apache® وApache Spark™ إما علامات تجارية مسجلة أو علامات تجارية لمؤسسة برامج Apache في الولايات المتحدة و/أو بلدان أخرى. لا توجد موافقة ضمنية من Apache Software Foundation باستخدام هذه العلامات.

بناء الأنظمة

رسم تخطيطي للبنية يوضح كيفية تجميع بنية البيانات الحديثة للبيانات ومعالجتها وتحليلها وتصورها.

قم بتنزيل ملف Visio لهذه البنية.

تدفق البيانات

  1. تستوعب Azure Databricks بيانات التدفق الأولية من Azure Event Hubs.

  2. يقوم Data Factory بتحميل بيانات الدفعة الأولية في Data Lake Storage Gen2.

  3. لتخزين البيانات:

    • يضم Data Lake Storage Gen2 بيانات من جميع الأنواع، مثل منظمة وغير منظمة وشبه منظمة البنية. كما أنه يخزن بيانات الدفعات والبيانات المتدفقة.

    • تشكل Delta Lake الطبقة المنسقة من مستودع البيانات. يخزن البيانات المكررة بتنسيق مفتوح المصدر.

    • يعمل Azure Databricks بشكل جيد مع بنية الهندسة التي تنظم البيانات في طبقات:

      • Bronze: يحتفظ بالبيانات الأولية.
      • Silver: يحتوي على بيانات تم تنظيفها وتصفيتها.
      • Gold: يخزن البيانات المجمعة المفيدة لتحليلات الأعمال.
  4. تستوعب المنصة التحليلية البيانات من الدُفعات المختلفة ومصادر التدفق. يستخدم علماء البيانات هذه البيانات لهذه المهام:

    • إعداد البيانات.
    • استكشاف البيانات.
    • إعداد النموذج.
    • تدريب النموذج.

    يدير MLflow المعلمات والقياس وتتبع النموذج في عمليات تشغيل كود علم البيانات. إمكانيات الترميز مرنة:

    • يمكن أن تكون التعليمات البرمجية في SQL وPython وR وSca.
    • يمكن أن يستخدم الكود مكتبات وأطر عمل شائعة مفتوحة المصدر مثل Koalas وPandas وscikit-Learn، والتي تم تثبيتها مسبقًا وتحسينها.
    • يمكن للممارسين تحسين الأداء والتكلفة باستخدام خيارات الحوسبة أحادية العقد ومتعددة العقد.
  5. تتوفر نماذج التعلم الآلي بعدة تنسيقات:

    • يخزن Azure Databricks معلومات حول النماذج في سجل نموذج MLflow. يتيح السجل النماذج من خلال واجهات برمجة تطبيقات الدُفعات والتدفقات وREST.
    • يمكن للحل أيضًا نشر النماذج في خدمات الويب Azure Machine Learning أو Azure Kubernetes Service (AKS).
  6. تتصل الخدمات التي تعمل مع البيانات بمصدر بيانات أساسي واحد لضمان الاتساق. على سبيل المثال، يمكن للمستخدمين تشغيل استعلامات SQL على مستودع البيانات باستخدام Azure Databricks SQL Analytics. هذه الخدمة:

    • يوفر محرر استعلام وكتالوج، ومحفوظات الاستعلام، ولوحة معلومات أساسية، وتنبيهات.
    • يستخدم الأمان المتكامل الذي يتضمن أذونات مستوى الصف والعمود.
    • يستخدم محرك Photon-powered Delta لتسريع الأداء.
  7. يُنشئ Power BI تقارير ولوحات معلومات تاريخية وتحليلية من النظام الأساسي الموحد للبيانات. تستخدم هذه الخدمة هذه الميزات عند العمل مع Azure Databricks:

    • موصل Azure Databricks مضمن لتصور البيانات الأساسية.
    • الاتصال المحسن بقاعدة بيانات Java (JDBC) وبرامج تشغيل اتصال قواعد البيانات المفتوح (ODBC).
  8. يمكن للمستخدمين تصدير مجموعات البيانات الذهبية من مستودع البيانات إلى Azure Synapse عبر موصل Synapse المحسن. توفر تجمعات SQL في Azure Synapse بيئة تخزين البيانات والحساب.

  9. يستخدم الحل خدمات Azure للتعاون والأداء والموثوقية والحوكمة والأمان:

    • يوفر Microsoft Purview خدمات اكتشاف البيانات وتصنيف البيانات الحساسة ونتائج تحليلات الحوكمة عبر ملكية البيانات.

    • يوفر Azure DevOps التكامل المستمر والنشر المستمر (CI/CD) وميزات التحكم في الإصدار المتكاملة الأخرى.

    • يقوم Azure Key Vault بإدارة الأسرار والمفاتيح والشهادات بأمان.

    • يوفر معرف Microsoft Entra تسجيل الدخول الأحادي (SSO) لمستخدمي Azure Databricks. يدعم Azure Databricks تزويد المستخدمين تلقائيا بمعرف Microsoft Entra لهذه المهام:

      • إنشاء مستخدمين جدد.
      • تعيين مستوى وصول لكل مستخدم.
      • إزالة المستخدمين ورفض وصولهم.
    • يجمع Azure Monitor بيانات تتبع الاستخدام لمورد Azure ويحللها. من خلال تحديد المشكلات بشكل استباقي، تزيد هذه الخدمة من الأداء والموثوقية.

    • توفر إدارة التكاليف من Microsoft خدمات الحوكمة المالية لأحمال عمل Azure.

المكونات

الحل يستخدم المكونات التالية.

المكونات الأساسية

  • Azure Databricksهو نظام أساسي لتحليلات البيانات. تعالج مجموعات Spark المدارة بالكامل تدفقات كبيرة من البيانات من مصادر متعددة. تقوم Azure Databricks بتنظيف مجموعات البيانات غير الهيكلية وتحويلها. فهو يجمع بين البيانات المعالجة والبيانات المنظمة من قواعد البيانات التشغيلية أو مستودعات البيانات. يقوم Azure Databricks أيضا بتدريب ونشر نماذج التعلم الآلي والتعلم العميق القابلة للتطوير.

  • Event Hubs هي نظام أساسي لدفق البيانات الضخمة. بصفتها نظام أساسي كخدمة (PaaS)، تتم إدارة خدمة عرض الأحداث هذه بالكامل.

  • Data Factory هي خدمة تكامل بيانات مختلطة. يمكنك استخدام هذا الحل المُدار بالكامل والذي لا يحتوي على خادم لإنشاء مهام سير عمل تحويل البيانات وجدولتها وتنظيمها.

  • Data Lake Storage Gen2 هو مستودع بيانات قابل للتطوير وآمن لأحمال عمل التحليلات عالية الأداء. يمكن لهذه الخدمة إدارة مجموعات عديدة من وحدات البيتابايت من المعلومات مع الحفاظ على المئات من وحدات الجيجابت من معدل النقل. قد تكون البيانات منظمة أو شبه منظمة البنية أو غير منظمة البنية. يأتي عادةً من مصادر متعددة غير متجانسة مثل السجلات والملفات والوسائط.

  • Azure Databricks SQL Analytics يشغل الاستعلامات على مستودعات البيانات. تقوم هذه الخدمة أيضًا بتصور البيانات في لوحات المعلومات.

  • Machine Learning هي بيئة مستندة إلى السحابة تساعدك على إنشاء حلول التحليلات التنبؤية ونشرها وإدارتها. باستخدام هذه النماذج، يمكنك توقع السلوك والنتائج والاتجاهات.

  • AKS هي خدمة Kubernetes عالية التوفر وآمنة ومدارة بشكل كامل. تسهل AKS نشر وإدارة التطبيقات الحاوية.

  • Azure Synapse هي خدمة تحليلات لمستودعات البيانات وأنظمة البيانات الضخمة. تتكامل هذه الخدمة مع Power BI والتعلم الآلي وخدمات Azure الأخرى.

  • موصلات Azure Synapse توفر طريقة للوصول إلى Azure Synapse من Azure Databricks. تنقل هذه الموصلات كميات كبيرة من البيانات بكفاءة بين مجموعات Azure Databricks ومثيلات Azure Synapse.

  • تجمعات SQL توفير بيئة تخزين البيانات والحساب في Azure Synapse. تتوافق التجمعات مع Azure Storage وData Lake Storage Gen2.

  • Delta Lake هي طبقة تخزين تستخدم تنسيق ملف مفتوح. تعمل هذه الطبقة فوق التخزين السحابي مثل Data Lake Storage Gen2. يدعم Delta Lake تعيين إصدار البيانات والتراجع والمعاملات لتحديث البيانات وحذفها ودمجها.

  • MLflow هو نظام أساسي مفتوح المصدر لدورة حياة التعلم الآلي (ML). تعمل مكوناته على مراقبة نماذج التعلم الآلي أثناء التدريب والتشغيل. يخزن MLflow أيضاً النماذج ويحملها أثناء التشغيل.

إعداد التقارير وتنظيم المكونات

  • Power BI هي مجموعة من خدمات البرامج والتطبيقات. تقوم هذه الخدمات بإنشاء ومشاركة التقارير التي تربط وتصور مصادر البيانات غير ذات الصلة. جنبًا إلى جنب مع Azure Databricks، يمكن أن يوفر Power BI تحديد السبب الجذري وتحليل البيانات الأولية.

  • Microsoft Purview يدير بيانات محلية ومتعددة السحابة والبرامج كخدمة (SaaS). تحتفظ خدمة التنظيم هذه بخرائط مشهد البيانات. تشمل الميزات اكتشاف البيانات تلقائياً، وتصنيف البيانات الحساسة، ودورة حياة البيانات.

  • Azure DevOps هو نظام أساسي لتنسيق DevOps. توفر SaaS هذه الأدوات والبيئات لبناء التطبيقات ونشرها والتعاون فيها.

  • Azure Key Vaultيخزّن الأسرار مثل الرموز المميزة وكلمات المرور ومفاتيح واجهة برمجة التطبيقات ويتحكم في الوصول إليها. يقوم Key Vault أيضًا بإنشاء مفاتيح التشفير والتحكم فيها وإدارة شهادات الأمان.

  • يقدم معرف Microsoft Entra خدمات إدارة الهوية والوصول المستندة إلى السحابة. توفر هذه الميزات طريقة للمستخدمين لتسجيل الدخول والوصول إلى الموارد.

  • Azure Monitor يجمع البيانات ويحللها على البيئات وموارد Azure. تتضمن هذه البيانات بيانات تتبع الاستخدام للتطبيق، مثل مقاييس الأداء وسجلات النشاط.

  • تدير إدارة التكلفة من Microsoft الإنفاق على السحابة. باستخدام الميزانيات والتوصيات، تنظم هذه الخدمة النفقات وتوضح كيفية تقليل التكاليف.

تفاصيل السيناريو

تفي بنيات البيانات الحديثة بهذه المعايير:

  • توحيد البيانات والتحليلات وحمل عمل الذكاء الاصطناعي.
  • تشغيل بكفاءة وموثوقية على أي نطاق.
  • توفير رؤى من خلال لوحات معلومات التحليلات أو التقارير التشغيلية أو التحليلات المتقدمة.

يحدد هذا الحل بنية بيانات حديثة تحقق هذه الأهداف. يشكل Azure Databricks جوهر الحل. تعمل هذه المنصة بسلاسة مع الخدمات الأخرى. توفر هذه الخدمات معًا حلاً بهذه الصفات:

  • البساطة: تعمل التحليلات الموحدة وعلوم البيانات والتعلم الآلي على تبسيط بنية البيانات.
  • مفتوح: يدعم الحل التعليمات البرمجية مفتوحة المصدر والمعايير المفتوحة والأطر المفتوحة. كما أنه يعمل مع بيئات التطوير المتكاملة (IDEs) والمكتبات ولغات البرمجة. من خلال الموصلات الأصلية وواجهات برمجة التطبيقات، يعمل الحل مع مجموعة واسعة من الخدمات الأخرى أيضًا.
  • تعاوني: يعمل مهندسو البيانات وعلماء البيانات والمحللون جنباً إلى جنب مع هذا الحل. يمكنهم استخدام دفاتر الملاحظات التعاونية والمعرفات ولوحات المعلومات والأدوات الأخرى للوصول إلى البيانات الأساسية الشائعة وتحليلها.

حالات الاستخدام المحتملة

وقد ألهم النظام الذي أنشأته Swiss Re Group لقسم إعادة تأمين الممتلكات والإصابات هذا الحل. بالإضافة إلى صناعة التأمين، يمكن لأي مجال يعمل مع البيانات الضخمة أو التعلم الآلي أيضًا الاستفادة من هذا الحل. تتضمن الأمثلة ما يلي:

  • قطاع الطاقة
  • البيع بالتجزئة والتجارة الإلكترونية
  • الخدمات المصرفية والمالية
  • الطب والرعاية الصحية

الخطوات التالية

للتعرف على الحلول ذات الصلة، راجع هذه المعلومات: