تنزيل البنيات المرجعية ل lakehouse

تتناول هذه المقالة الإرشادات المعمارية للمخزن من حيث مصدر البيانات، والاستيعاب، والتحويل، والاستعلام والمعالجة، والخدمات، والتحليل/ الإخراج، والتخزين.

تحتوي كل بنية مرجعية على PDF قابل للتنزيل بتنسيق 11 × 17 (A3).

بنية مرجعية عامة

بنية مرجعية عامة لمخزن البحيرة

تنزيل: بنية مرجعية عامة ل Lakehouse ل Databricks (PDF)

تنظيم البنيات المرجعية

يتم هيكلة البنية المرجعية على طول حارات السباحة المصدر والاستيعاب والتحويل والاستعلام والعملية والخدمة والتحليل والتخزين:

  • Source

    تميز البنية بين البيانات شبه المنظمة وغير المنظمة (أجهزة الاستشعار وIoT والوسائط والملفات/السجلات) والبيانات المنظمة (RDBMS وتطبيقات الأعمال). يمكن أيضا دمج مصادر SQL (RDBMS) في lakehouse وUnity Catalog دون ETL من خلال اتحاد lakehouse. بالإضافة إلى ذلك، قد يتم تحميل البيانات من موفري السحابة الآخرين.

  • الاستيعاب

    يمكن استيعاب البيانات في مستودع البيانات عبر الدفعة أو الدفق:

    • يمكن تحميل الملفات التي تم تسليمها إلى التخزين السحابي مباشرة باستخدام Databricks Auto Loader.
    • لاستيعاب البيانات في دفعات من تطبيقات المؤسسة إلى Delta Lake، تعتمد Databricks lakehouse على أدوات استيعاب الشركاء مع محولات محددة لأنظمة السجلات هذه.
    • يمكن استيعاب أحداث الدفق مباشرة من أنظمة تدفق الأحداث مثل Kafka باستخدام Databricks Structured Streaming. يمكن أن تكون مصادر الدفق أدوات استشعار أو IoT أو تغيير عمليات التقاط البيانات.
  • التخزين

    عادة ما يتم تخزين البيانات في نظام التخزين السحابي حيث تستخدم مسارات ETL بنية الميدالية لتخزين البيانات بطريقة منسقة كملفات /جداول دلتا.

  • التحويل والاستعلام والعملية

    تستخدم مستودع Databricks محركاتها Apache Spark و Photon لجميع التحويلات والاستعلامات.

    نظرا لبساطته، يعد إطار العمل التعريفي DLT (Delta Live Tables) خيارا جيدا لبناء مسارات معالجة بيانات موثوقة وقابلة للصيانة وقابلة للاختبار.

    يدعم Databricks Data Intelligence Platform، الذي يتم دعمه بواسطة Apache Spark و Photon، كلا النوعين من أحمال العمل: استعلامات SQL عبر مستودعات SQL وأحمال عمل SQL وPython وSca عبر مجموعات مساحة العمل.

    بالنسبة لعلوم البيانات (نمذجة التعلم الآلي وGen الذكاء الاصطناعي)، يوفر النظام الأساسي الذكاء الاصطناعي التعلم الآلي Databricks أوقات تشغيل التعلم الآلي المتخصصة ل AutoML وترميز وظائف التعلم الآلي. يتم دعم جميع مهام سير عمل MLOps وعلوم البيانات على أفضل نحو بواسطة MLflow.

  • خدمه

    بالنسبة لحالات استخدام DWH وBI، توفر مستودع Databricks Databricks SQL، مستودع البيانات الذي تعمل به مستودعات SQL ومستودعات SQL بلا خادم.

    بالنسبة للتعلم الآلي، فإن خدمة النموذج هي نموذج قابل للتطوير وفي الوقت الحقيقي وعلى مستوى المؤسسة يخدم القدرة المستضافة في وحدة التحكم Databricks.

    قواعد البيانات التشغيلية: يمكن استخدام الأنظمة الخارجية، مثل قواعد البيانات التشغيلية، لتخزين وتقديم منتجات البيانات النهائية إلى تطبيقات المستخدم.

    التعاون: يحصل شركاء الأعمال على وصول آمن إلى البيانات التي يحتاجونها من خلال Delta Sharing. استنادا إلى Delta Sharing، يعد Databricks Marketplace منتدى مفتوحا لتبادل منتجات البيانات.

  • التحليل

    تطبيقات الأعمال النهائية في هذا حارة السباحة. تتضمن الأمثلة العملاء المخصصين مثل التطبيقات الذكاء الاصطناعي المتصلة ب Databricks Model Serving للاستدلال في الوقت الفعلي أو التطبيقات التي تصل إلى البيانات التي يتم دفعها من lakehouse إلى قاعدة بيانات تشغيلية.

    بالنسبة لحالات استخدام المعلومات المهنية، يستخدم المحللون عادة أدوات المعلومات المهنية للوصول إلى مستودع البيانات. يمكن لمطوري SQL بالإضافة إلى ذلك استخدام Databricks SQL Editor (غير موضح في الرسم التخطيطي) للاستعلامات ولوحة المعلومات.

    كما يوفر النظام الأساسي للتحليق الذكي للبيانات لوحات المعلومات لإنشاء مرئيات البيانات ومشاركة الرؤى.

قدرات لأحمال العمل الخاصة بك

بالإضافة إلى ذلك، يأتي مستودع Databricks مزودا بقدرات إدارية تدعم جميع أحمال العمل:

  • البيانات وحوكمة الذكاء الاصطناعي

    البيانات المركزية ونظام الحوكمة الذكاء الاصطناعي في Databricks Data Intelligence Platform هو كتالوج Unity. يوفر كتالوج Unity مكانا واحدا لإدارة نهج الوصول إلى البيانات التي تنطبق عبر جميع مساحات العمل ويدعم جميع الأصول التي تم إنشاؤها أو استخدامها في lakehouse، مثل الجداول ووحدات التخزين والميزات (مخزن الميزات) والنماذج (سجل النموذج). يمكن أيضا استخدام كتالوج Unity لالتقاط دورة حياة بيانات وقت التشغيل عبر الاستعلامات التي يتم تشغيلها على Databricks.

    تسمح لك مراقبة Databricks lakehouse بمراقبة جودة البيانات في جميع الجداول في حسابك. كما يمكنه تتبع أداء نماذج التعلم الآلي ونقاط نهاية خدمة النماذج.

    بالنسبة إلى إمكانية المراقبة، تعد جداول النظام مخزنا تحليليا مستضافا على Databricks للبيانات التشغيلية لحسابك. يمكن استخدام جداول النظام لقابلية الملاحظة التاريخية عبر حسابك.

  • محرك ذكاء البيانات

    يسمح النظام الأساسي Databricks Data Intelligence لمؤسستك بأكملها باستخدام البيانات الذكاء الاصطناعي. يتم تشغيله بواسطة DatabricksIQ ويجمع بين الذكاء الاصطناعي التوليدية وفوائد توحيد مستودع لفهم الدلالات الفريدة لبياناتك.

    يتوفر مساعد Databricks في دفاتر ملاحظات Databricks ومحرر SQL ومحرر الملفات كمساعد الذكاء الاصطناعي مدرك للسياق للمطورين.

  • تزامن

    تنسق مهام سير عمل Databricks معالجة البيانات والتعلم الآلي وتدفقات التحليلات على Databricks Data Intelligence Platform. تحتوي مهام سير العمل على خدمات تزامن مدارة بالكامل مدمجة في النظام الأساسي Databricks، بما في ذلك وظائف Databricks لتشغيل التعليمات البرمجية غير التفاعلية في مساحة عمل Databricks وجداول Delta Live لإنشاء مسارات ETL موثوقة وقابلة للصيانة.

البنية المرجعية ل Data Intelligence Platform على Azure

يتم اشتقاق البنية المرجعية ل Azure Databricks من البنية المرجعية العامة عن طريق إضافة خدمات خاصة ب Azure لعناصر المصدر والاستيعاب والخدمة والتحليل/الإخراج والتخزين.

بنية مرجعية ل Azure Databricks lakehouse

تنزيل: بنية مرجعية لمخزن بحيرة Databricks على Azure

تعرض بنية مرجع Azure الخدمات التالية الخاصة ب Azure لاستيعاب والتخزين والخدمة والتحليل/الإخراج:

  • Azure Synapse وSQL Server كأنظمة مصدر ل Lakehouse Federation
  • Azure IoT Hub وAzure Event Hub لاستيعاب البث
  • Azure Data Factory لاستيعاب الدفعات
  • Azure Data Lake Storage Gen 2 (ADLS) كمخزن للكائن
  • Azure SQL DB وAzure Cosmos DB كقاعدة بيانات تشغيلية
  • Azure Purview ككتالوج المؤسسة الذي ستقوم UC بتصدير معلومات المخطط والنواة إليه
  • Power BI كأداة BI

إشعار

  • يركز هذا العرض للبنية المرجعية فقط على خدمات Azure ومخزن بحيرة Databricks. مستودع على Databricks هو نظام أساسي مفتوح يتكامل مع نظام بيئي كبير من أدوات الشركاء.
  • خدمات موفر السحابة المعروضة ليست شاملة. يتم اختيارها لتوضيح المفهوم.

حالة الاستخدام: الدفعة ETL

بنية مرجعية للدفعة ETL على Azure Databricks

تنزيل: بنية مرجعية ل Batch ETL ل Azure Databricks

تستخدم أدوات الاستيعاب محولات خاصة بالمصدر لقراءة البيانات من المصدر ثم إما تخزينها في التخزين السحابي حيث يمكن لأداة التحميل التلقائي قراءتها، أو استدعاء Databricks مباشرة (على سبيل المثال، مع أدوات استيعاب الشركاء المدمجة في مستودع Databricks). لتحميل البيانات، يقوم Databricks ETL ومحرك المعالجة - عبر DLT - بتشغيل الاستعلامات. يمكن تنسيق المهام الفردية أو متعددة المهام بواسطة مهام سير عمل Databricks والتحكم فيها بواسطة كتالوج Unity (التحكم في الوصول والتدقيق و دورة الحياة وما إلى ذلك). إذا كانت الأنظمة التشغيلية ذات زمن الانتقال المنخفض تتطلب الوصول إلى جداول ذهبية محددة، يمكن تصديرها إلى قاعدة بيانات تشغيلية مثل RDBMS أو مخزن قيمة المفتاح في نهاية مسار ETL.

حالة الاستخدام: دفق بيانات التقاط البيانات وتغييرها (CDC)

بنية دفق Spark المنظمة على Azure Databricks

تنزيل: بنية الدفق المنظمة ل Spark ل Azure Databricks

يستخدم محرك Databricks ETL Spark Structured Streaming للقراءة من قوائم انتظار الأحداث مثل Apache Kafka أو Azure Event Hub. تتبع خطوات انتقال البيانات من الخادم نهج حالة استخدام الدفعة أعلاه.

عادة ما يستخدم التقاط بيانات التغيير في الوقت الحقيقي (CDC) قائمة انتظار أحداث لتخزين الأحداث المستخرجة. من هناك، تتبع حالة الاستخدام حالة استخدام الدفق.

إذا تم التقاط بيانات التغيير على دفعة واحدة حيث يتم تخزين السجلات المستخرجة في التخزين السحابي أولا، فيمكن للتحميل التلقائي Databricks قراءتها وتتبع حالة الاستخدام Batch ETL.

حالة الاستخدام: التعلم الآلي الذكاء الاصطناعي

التعلم الآلي والهندسة المرجعية الذكاء الاصطناعي ل Azure Databricks

تنزيل: التعلم الآلي والهندسة المرجعية الذكاء الاصطناعي ل Azure Databricks

للتعلم الآلي، يوفر Databricks Data Intelligence Platform الذكاء الاصطناعي الفسيفساء، والذي يأتي مع أحدث مكتبات التعلم الآلي والتعلم العميق. يوفر إمكانات مثل مخزن الميزات وسجل النموذج (كلاهما مدمج في كتالوج Unity)، وميزات منخفضة التعليمات البرمجية مع AutoML، وتكامل MLflow في دورة حياة علم البيانات.

تخضع جميع الأصول المتعلقة بعلوم البيانات (الجداول والميزات والنماذج) إلى كتالوج Unity ويمكن لعلماء البيانات استخدام مهام سير عمل Databricks لتنظيم وظائفهم.

لنشر النماذج بطريقة قابلة للتطوير وعلى مستوى المؤسسة، استخدم قدرات MLOps لنشر النماذج في خدمة النموذج.

حالة الاستخدام: استرداد الجيل المعزز (Gen الذكاء الاصطناعي)

بنية مرجع Gen الذكاء الاصطناعي RAG ل Azure Databricks

تنزيل: بنية مرجع Gen الذكاء الاصطناعي RAG ل Azure Databricks

بالنسبة لحالات الاستخدام الذكاء الاصطناعي التوليدية، تأتي الذكاء الاصطناعي الفسيفساء مع مكتبات حديثة وقدرات الذكاء الاصطناعي Gen محددة من الهندسة الفورية إلى ضبط النماذج الموجودة والتدريب المسبق من البداية. توضح البنية أعلاه مثالا على كيفية دمج بحث المتجهات لإنشاء تطبيق الذكاء الاصطناعي RAG (الجيل المعزز المسترد).

لنشر النماذج بطريقة قابلة للتطوير وعلى مستوى المؤسسة، استخدم قدرات MLOps لنشر النماذج في خدمة النموذج.

حالة الاستخدام: تحليلات BI وSQL

البنية المرجعية لتحليلات BI وSQL ل Azure Databricks

تنزيل: هندسة مرجعية لتحليلات BI وSQL ل Azure Databricks

بالنسبة لحالات استخدام المعلومات المهنية، يمكن لمحللي الأعمال استخدام لوحات المعلومات أو محرر Databricks SQL أو أدوات BI معينة مثل Tableau أو Power BI. في جميع الحالات، يكون المحرك هو Databricks SQL (بلا خادم أو بدون خادم) ويتم توفير اكتشاف البيانات والاستكشاف والتحكم في الوصول بواسطة كتالوج Unity.

حالة الاستخدام: اتحاد Lakehouse

تصميم مرجع اتحاد Lakehouse ل Azure Databricks

تنزيل: بنية مرجع اتحاد Lakehouse ل Azure Databricks

يسمح اتحاد Lakehouse بتكامل قواعد بيانات SQL للبيانات الخارجية (مثل MySQL أو Postgres أو SQL Server أو Azure Synapse) مع Databricks.

يمكن أن تستفيد جميع أحمال العمل (الذكاء الاصطناعي وDWH وBI) من هذا دون الحاجة إلى ETL البيانات في تخزين الكائن أولا. يتم تعيين كتالوج المصدر الخارجي في كتالوج Unity ويمكن تطبيق التحكم في الوصول الدقيق للوصول عبر النظام الأساسي Databricks.

حالة الاستخدام: مشاركة بيانات المؤسسة

البنية المرجعية لمشاركة بيانات المؤسسة ل Azure Databricks

تنزيل: البنية المرجعية لمشاركة بيانات المؤسسة ل Azure Databricks

يتم توفير مشاركة البيانات على مستوى المؤسسة بواسطة Delta Sharing. يوفر الوصول المباشر إلى البيانات في مخزن العناصر المؤمن بواسطة كتالوج Unity، وDatabricks Marketplace هو منتدى مفتوح لتبادل منتجات البيانات.