ماذا يُقصد بمستودع البيانات؟

مستودع البيانات هو مستودع تخزين يحتوي على كمية كبيرة من البيانات بتنسيقها الأصلي الخام. تم تحسين مخازن بحيرة البيانات للتوسع إلى تيرابايت وبيتا بايت من البيانات. تأتي البيانات عادة من مصادر غير متجانسة متعددة، وقد تكون منظمة أو شبه منظمة أو غير منظمة البنية. الفكرة في بحيرة البيانات هي تخزين كل شيء في حالته الأصلية غير المترجمة. يختلف هذا النهج عن مستودع البيانات التقليدي، الذي يحول البيانات ويعالجها في وقت الاستيعاب.

رسم تخطيطي يوضح حالات استخدام مستودع البيانات المختلفة.

فيما يلي حالات استخدام مستودع البيانات الرئيسية:

  • حركة بيانات السحابة وإنترنت الأشياء
  • المعالجة الخاصة بالبيانات الضخمة
  • التحليلات
  • إعداد التقرير
  • حركة البيانات المحلية

مزايا مستودع البيانات:

  • لا يتم التخلص من البيانات أبداً، لأنه يتم تخزين البيانات بتنسيقها الخام. هذا مفيد بشكل خاص في بيئة البيانات الضخمة، عندما قد لا تعرف مسبقا ما هي الرؤى المتوفرة من البيانات.
  • يمكن للمستخدمين استكشاف البيانات وإنشاء استعلاماتهم الخاصة.
  • قد يكون أسرع من أدوات الاستخراج والتحويل والتحميل (ETL) التقليدية.
  • أكثر مرونة من مستودع البيانات، لأنه يمكنه تخزين البيانات غير المنظمة وشبه المنظمة.

يتكون حل مستودع البيانات الكامل من كل من التخزين والمعالجة. تم تصميم تخزين مستودع البيانات للتسامح مع الخطأ وقابلية التوسع اللانهائية واستيعاب البيانات ذات الإنتاجية العالية بأشكال وأحجام مختلفة. تتضمن معالجة مستودع البيانات محرك معالجة واحداً أو أكثر تم إنشاؤه مع مراعاة هذه الأهداف، ويمكن أن تعمل على البيانات المخزنة في مستودع بيانات على نطاق واسع.

متى تستخدم مستودع بيانات

تتضمن الاستخدامات النموذجية لمخزن البيانات استكشاف البيانات وتحليلات البيانات والتعلم الآلي.

يمكن أن تعمل مستودع البيانات أيضاً كمصدر بيانات لمستودع البيانات. باستخدام هذا النهج، يتم استيعاب البيانات الأولية في مستودع البيانات ثم تحويلها إلى تنسيق منظم قابل للاستعلام. عادة ما يستخدم هذا التحويل مسار استخراج وتحميل وتحويل (ELT) (استخراج وتحميل وتحويل)، حيث يتم استيعاب البيانات وتحويلها في مكانها. قد تنتقل البيانات المصدر العلائقية بالفعل مباشرة إلى مستودع البيانات، باستخدام عملية ETL، وتخطي مستودع البيانات.

غالباً ما تستخدم مخازن مستودع البيانات في سيناريوهات تدفق الأحداث أو IoT، لأنها يمكن أن تستمر في كميات كبيرة من البيانات الارتباطية وغير الارتباطية دون تعريف التحويل أو المخطط. تم إنشاؤها للتعامل مع كميات كبيرة من الكتابات الصغيرة في زمن انتقال منخفض، ويتم تحسينها لمعدل النقل الهائل.

يقارن الجدول التالي مستودعات البيانات ومستودعات البيانات:

جدول يقارن ميزات مستودع البيانات بميزات مستودع البيانات.

التحديات

  • قد يؤدي عدم وجود مخطط أو بيانات تعريف وصفية إلى جعل البيانات صعبة الاستهلاك أو الاستعلام.
  • يمكن أن يؤدي نقص التناسق الدلالي عبر البيانات إلى صعوبة إجراء تحليل على البيانات، ما لم يكن المستخدمون ذوي مهارة عالية في تحليلات البيانات.
  • قد يكون من الصعب ضمان جودة البيانات التي تدخل إلى مستودع البيانات.
  • بدون الحوكمة السليمة، يمكن أن تكون مشكلات التحكم في الوصول والخصوصية مشاكل. ما هي المعلومات التي تدخل في مستودع البيانات، ومن يمكنه الوصول إلى تلك البيانات، وما الذي يستخدم؟
  • قد لا يكون مستودع البيانات أفضل طريقة لدمج البيانات الارتباطية بالفعل.
  • في حد ذاته، لا يوفر مستودع البيانات طرق عرض متكاملة أو شاملة عبر المؤسسة.
  • قد تصبح مستودع البيانات أرضاً للتخلص من البيانات التي لا يتم تحليلها فعلياً أو استخراجها للحصول على رؤى.

خيارات التكنولوجيا

إنشاء حلول مستودع البيانات باستخدام الخدمات التالية التي تقدمها Azure:

رسم تخطيطي يوضح خدمات مستودع البيانات الرئيسية.

  • Azure HD Insight هي خدمة تحليلات مدارة وكاملة الطيف مفتوحة المصدر في السحابة للمؤسسات.
  • Azure Data Lake Store هو مستودع متوافق مع Hadoop.
  • Azure Data Lake Analytics هي خدمة وظيفة تحليلات عند الطلب لتبسيط تحليلات البيانات الضخمة.

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكاتب الرئيسي:

الخطوات التالية