مشاركة عبر


نمذجة البيانات

تقدم هذه المقالة اعتبارات ومحاذير وتوصيات لنمذجة البيانات على Azure Databricks. وهو يستهدف المستخدمين الذين يقومون بإعداد جداول جديدة أو تأليف أحمال عمل ETL، مع التركيز على فهم سلوكيات Azure Databricks التي تؤثر على تحويل البيانات الأولية إلى نموذج بيانات جديد. تعتمد قرارات نمذجة البيانات على كيفية استخدام مؤسستك وأحمال العمل للجداول. يؤثر نموذج البيانات الذي تختاره على أداء الاستعلام وتكاليف الحوسبة وتكاليف التخزين. يتضمن ذلك مقدمة للمفاهيم الأساسية في تصميم قاعدة البيانات باستخدام Azure Databricks.

هام

تنطبق هذه المقالة حصريا على الجداول المدعومة من Delta Lake، والتي تتضمن جميع الجداول المدارة في كتالوج Unity.

يمكنك استخدام Azure Databricks للاستعلام عن مصادر البيانات الخارجية الأخرى، بما في ذلك الجداول المسجلة في Lakehouse Federation. كل مصدر بيانات خارجي له قيود ودلالات وضمانات معاملات مختلفة. راجع بيانات الاستعلام.

مفاهيم إدارة قاعدة البيانات

تشترك بحيرة تم إنشاؤها باستخدام Azure Databricks في العديد من المكونات والمفاهيم مع أنظمة تخزين بيانات المؤسسة الأخرى. ضع في اعتبارك المفاهيم والميزات التالية أثناء تصميم نموذج البيانات.

المعاملات على Azure Databricks

تحدد Azure Databricks نطاق المعاملات إلى جداول فردية. وهذا يعني أن Azure Databricks لا يدعم عبارات متعددة الجداول (تسمى أيضا المعاملات متعددة العبارات).

بالنسبة لأحمال عمل نمذجة البيانات، يترجم هذا إلى الاضطرار إلى تنفيذ معاملات مستقلة متعددة عند استيعاب سجل مصدر يتطلب إدراج صفوف أو تحديثها في جدولين أو أكثر. يمكن أن تنجح كل عملية من هذه المعاملات أو تفشل بشكل مستقل عن المعاملات الأخرى، ويجب أن تكون استعلامات انتقال البيانات من الخادم متسامحة مع عدم تطابق الحالة بسبب المعاملات الفاشلة أو المتأخرة.

المفاتيح الأساسية والخارجية على Azure Databricks

المفاتيح الأساسية والخارجية إعلامية ولا يتم فرضها. هذا النموذج شائع في العديد من أنظمة قواعد البيانات المستندة إلى السحابة للمؤسسات، ولكنه يختلف عن العديد من أنظمة قواعد البيانات الارتباطية التقليدية. راجع القيود على Azure Databricks.

الانضمام إلى Azure Databricks

يمكن أن تقدم الصلات اختناقات المعالجة في أي تصميم قاعدة بيانات. عند معالجة البيانات على Azure Databricks، يسعى محسن الاستعلام إلى تحسين خطة الصلات، ولكن يمكن أن يكافح عندما يجب أن ينضم استعلام فردي إلى نتائج من العديد من الجداول. يمكن أن يفشل المحسن أيضا في تخطي السجلات في جدول عندما تكون معلمات التصفية في حقل في جدول آخر، مما قد يؤدي إلى فحص الجدول بالكامل.

راجع العمل مع الصلات على Azure Databricks.

إشعار

يمكنك استخدام طرق العرض المجسدة لحساب النتائج بشكل متزايد لبعض عمليات الانضمام، ولكن الصلات الأخرى غير متوافقة مع طرق العرض المجسدة. راجع استخدام طرق العرض المجسدة في Databricks SQL.

العمل مع أنواع البيانات المتداخلة والمعقدة

يدعم Azure Databricks العمل مع مصادر البيانات شبه المنظمة بما في ذلك JSON وAvro وProtoBuff، وتخزين البيانات المعقدة كبنى وسلاسل JSON والخرائط والصفائف. راجع البيانات شبه المنظمة للنموذج.

نماذج البيانات التي تمت تسويتها

يمكن أن تعمل Azure Databricks بشكل جيد مع أي نموذج بيانات. إذا كان لديك نموذج بيانات موجود تحتاج إلى الاستعلام منه أو ترحيله إلى Azure Databricks، فيجب عليك تقييم الأداء قبل إعادة تصميم بياناتك.

إذا كنت تقوم بتصميم مستودع جديد أو إضافة مجموعات بيانات إلى بيئة موجودة، توصي Azure Databricks بعدم استخدام نموذج تمت تسويته بشكل كبير مثل النموذج العادي الثالث (3NF).

تعمل نماذج مثل المخطط النجمي أو مخطط البلورة الثلجية بشكل جيد على Azure Databricks، حيث يوجد عدد أقل من الصلات في الاستعلامات القياسية ومفاتيح أقل للحفاظ على المزامنة. بالإضافة إلى ذلك، يسمح وجود المزيد من حقول البيانات في جدول واحد لمحسن الاستعلام بتخطي كميات كبيرة من البيانات باستخدام إحصائيات على مستوى الملف. لمزيد من المعلومات حول تخطي البيانات، راجع تخطي البيانات ل Delta Lake.