ما هو تصميم مستودع الميداليات؟

تصف بنية الميدالية سلسلة من طبقات البيانات التي تشير إلى جودة البيانات المخزنة في lakehouse. توصي Databricks باتباع نهج متعدد الطبقات لبناء مصدر واحد للحقيقة لمنتجات بيانات المؤسسة. تضمن هذه البنية الذرية والاتساق والعزل والمتانة مع مرور البيانات عبر طبقات متعددة من عمليات التحقق من الصحة والتحويلات قبل تخزينها في تخطيط محسن لتحليلات فعالة. تصف المصطلحات البرونزية (الخام) والفضية (التي تم التحقق من صحتها) والذهبية (المخصبة) جودة البيانات في كل من هذه الطبقات.

من المهم ملاحظة أن بنية الميدالية هذه لا تحل محل تقنيات النمذجة الأبعاد الأخرى. يمكن أن تأخذ المخططات والجداول داخل كل طبقة مجموعة متنوعة من الأشكال ودرجات التسوية اعتمادا على تكرار وطبيعة تحديثات البيانات وحالات استخدام انتقال البيانات من الخادم للبيانات.

يمكن للمؤسسات الاستفادة من مستودع Databricks لإنشاء مجموعات بيانات تم التحقق من صحتها وصيانتها يمكن الوصول إليها في جميع أنحاء الشركة. يعد اعتماد عقلية تنظيمية تركز على تنظيم البيانات كالمنتجات خطوة رئيسية في بناء مستودع بيانات بنجاح.

استيعاب البيانات الأولية إلى الطبقة البرونزية

تحتوي الطبقة البرونزية على بيانات غير مصدق عليها. عادة ما يتم استيعاب البيانات في الطبقة البرونزية:

  • يحافظ على الحالة الأولية لمصدر البيانات.
  • يتم إلحاقها بشكل متزايد وتنمو بمرور الوقت.
  • يمكن أن تكون أي مجموعة من المعاملات المتدفقة والدفعية.

يوفر الاحتفاظ بالمحفوظات الكاملة غير المعالجة لكل مجموعة بيانات بتنسيق تخزين فعال القدرة على إعادة إنشاء أي حالة لنظام بيانات معين.

يمكن إضافة بيانات تعريف إضافية (مثل أسماء الملفات المصدر أو تسجيل بيانات الوقت التي تمت معالجتها) إلى البيانات عند الاستيعاب لتحسين إمكانية الاكتشاف ووصف حالة مجموعة البيانات المصدر والأداء الأمثل في تطبيقات انتقال البيانات من الخادم.

التحقق من صحة البيانات وإلغاء تكرارها في الطبقة الفضية

تذكر أنه بينما تحتوي الطبقة البرونزية على محفوظات البيانات بأكملها في حالة خام تقريبا، تمثل الطبقة الفضية نسخة تم التحقق من صحتها ومثرية من بياناتنا التي يمكن الوثوق بها لتحليلات انتقال البيانات من الخادم.

في حين أن Databricks تؤمن بقوة برؤية البحيرة التي تحركها الجداول البرونزية والفضية والذهبية، فإن تنفيذ طبقة فضية بكفاءة سيفتح على الفور العديد من الفوائد المحتملة للبحيرة.

بالنسبة لأي مسار بيانات، قد تحتوي الطبقة الفضية على أكثر من جدول واحد.

تحليلات الطاقة مع الطبقة الذهبية

غالبا ما يتم تحسين وتجميع بيانات الذهب هذه بشكل كبير، وتحتوي على بيانات تعمل على تشغيل التحليلات والتعلم الآلي وتطبيقات الإنتاج. في حين أن جميع الجداول في البحيرة يجب أن تخدم غرضا مهما، فإن الجداول الذهبية تمثل البيانات التي تم تحويلها إلى معرفة، بدلا من مجرد معلومات.

يعتمد المحللون إلى حد كبير على جداول الذهب لمسؤولياتهم الأساسية، ونادرا ما يتم تخزين البيانات المشتركة مع العميل خارج هذا المستوى.

يتم إكمال التحديثات إلى هذه الجداول كجزء من أحمال عمل الإنتاج المجدولة بانتظام، مما يساعد على التحكم في التكاليف ويسمح باتفاقيات مستوى الخدمة (SLAs) لإنشاء حداثة البيانات.

في حين أن مستودع التخزين لا يحتوي على نفس مشكلات التوقف التام التي قد تواجهها في مستودع بيانات المؤسسة، غالبا ما يتم تخزين الجداول الذهبية في حاوية تخزين منفصلة للمساعدة في تجنب حدود السحابة على طلبات البيانات.

بشكل عام، نظرا لأنه تتم معالجة التجميعات والصلات والتصفية قبل كتابة البيانات إلى الطبقة الذهبية، يجب أن يرى المستخدمون أداء استعلام زمن انتقال منخفض على البيانات في الجداول الذهبية.