بنية مستودع البيانات: إطار عمل معماري جيدا ل Databricks

توفر هذه المجموعة من مقالات تصميم مستودع البيانات مبادئ وأفضل الممارسات لتنفيذ وتشغيل مستودع باستخدام Azure Databricks.

إطار عمل Databricks جيد التصميم لمخزن البحيرة

Well-architected framework: data lakehouse diagram.

تتكون بحيرة البحيرات المصممة جيدا من 7 ركائز تصف مجالات مختلفة من الاهتمام بتنفيذ مستودع بيانات في السحابة:

  • إدارة البيانات

    الإشراف لضمان أن البيانات تجلب القيمة وتدعم استراتيجية عملك.

  • إمكانية التشغيل التفاعلي وإمكانية الاستخدام

    قدرة مستودع البحيرات على التفاعل مع المستخدمين والأنظمة الأخرى.

  • التميز التشغيلي

    جميع العمليات التي تحافظ على تشغيل مستودع البحيرات في الإنتاج.

  • الأمان والخصوصية والتوافق

    حماية تطبيق Azure Databricks وأحمال عمل العملاء وبيانات العملاء من التهديدات.

  • الموثوقيه

    قدرة نظام على التعافي من حالات الفشل والاستمرار في العمل.

  • كفاءة الأداء

    قدرة نظام على التكيف مع التغيرات في الحمل.

  • تحسين التكلفة

    إدارة التكاليف لزيادة القيمة المقدمة إلى أقصى حد.

توسع بحيرة التصميم الجيد إطار عمل Microsoft Azure Well-Architected إلى Databricks Data Intelligence Platform وتشارك ركائز "التميز التشغيلي" و"الأمان" (مثل "الأمان والخصوصية والتوافق" و"الموثوقية" و"كفاءة الأداء" و"تحسين التكلفة".

بالنسبة لهذه الركائز الخمس، لا تزال مبادئ وأفضل ممارسات إطار عمل السحابة تنطبق على lakehouse. ويوسع مستودع البحيرة المصمم جيدا هذه المبادئ وأفضل الممارسات الخاصة ببحيرة البحيرة والمهمة لبناء بحيرة فعالة وفعالة.

حوكمة البيانات وقابلية التشغيل التفاعلي وسهولة الاستخدام في بنيات المستودع

تغطي ركيزتا "إدارة البيانات" و"إمكانية التشغيل التفاعلي وسهولة الاستخدام" الاهتمامات الخاصة بالمخزن.

تغلف إدارة البيانات السياسات والممارسات التي يتم تنفيذها لإدارة أصول البيانات داخل المؤسسة بشكل آمن. أحد الجوانب الأساسية لمخزن البحيرات هو إدارة البيانات المركزية: يوحد مخزن البحيرة تخزين البيانات ويستخدم الذكاء الاصطناعي الحالات على نظام أساسي واحد. وهذا يبسط مكدس البيانات الحديث من خلال التخلص من مستودعات البيانات التي تفصل عادة وتعقد هندسة البيانات والتحليلات وذكاء الأعمال وعلوم البيانات والتعلم الآلي. لتبسيط إدارة البيانات، يقدم lakehouse حلا موحدا للحوكمة للبيانات والتحليلات الذكاء الاصطناعي. من خلال تقليل نسخ بياناتك والانتقال إلى طبقة معالجة بيانات واحدة حيث يمكن تشغيل جميع عناصر التحكم في إدارة البيانات معا، يمكنك تحسين فرصك في البقاء في حالة توافق واكتشاف خرق البيانات.

وهناك مبدأ آخر مهم من قاعدة البحيرة هو توفير تجربة مستخدم رائعة لجميع الشخصيات التي تعمل معها، وأن تكون قادرة على التفاعل مع نظام بيئي واسع من الأنظمة الخارجية. يحتوي Azure بالفعل على مجموعة متنوعة من أدوات البيانات التي تؤدي معظم المهام التي قد تحتاجها المؤسسة المستندة إلى البيانات. ومع ذلك، يجب تجميع هذه الأدوات بشكل صحيح لتوفير جميع الوظائف، مع تقديم كل خدمة تجربة مستخدم مختلفة. يمكن أن يؤدي هذا النهج إلى ارتفاع تكاليف التنفيذ وعادة لا يوفر نفس تجربة المستخدم مثل النظام الأساسي الأصلي ل lakehouse: المستخدمون مقيدون بالتناقضات بين الأدوات والافتقار إلى قدرات التعاون، وغالبا ما يتعين عليه المرور بعمليات معقدة للوصول إلى النظام وبالتالي الوصول إلى البيانات.

يوفر مستودع متكامل على الجانب الآخر تجربة مستخدم متسقة عبر جميع أحمال العمل وبالتالي يزيد من قابلية الاستخدام. وهذا يقلل من تكاليف التدريب والإلحاق ويحسن التعاون بين الوظائف. بالإضافة إلى ذلك، تتم إضافة ميزات جديدة تلقائيا بمرور الوقت - لزيادة تحسين تجربة المستخدم - دون الحاجة إلى استثمار الموارد والميزانيات الداخلية.

يمكن أن يكون النهج متعدد السحابات استراتيجية متعمدة لشركة أو نتيجة عمليات الدمج والاستحواذ أو وحدات الأعمال المستقلة التي تختار موفري سحابة مختلفين. في هذه الحالة، يؤدي استخدام مستودع متعدد السحابة إلى تجربة مستخدم موحدة عبر جميع السحب. وهذا يقلل من انتشار الأنظمة عبر المؤسسة، ما يقلل بدوره من متطلبات المهارات والتدريب للموظفين المشاركين في المهام المستندة إلى البيانات.

وأخيرا، في عالم شبكة مع عمليات الأعمال عبر الشركات، يجب أن تعمل الأنظمة معا بسلاسة قدر الإمكان. تعتبر درجة التشغيل البيني معيارا حاسما هنا، ويجب أن تتدفق أحدث البيانات، باعتبارها أصل أساسي لأي عمل تجاري، بشكل آمن بين أنظمة الشركاء الداخليين والخارجيين.

المبادئ وأفضل الممارسات