فهم مستودعات البيانات

مكتمل

data warehouse هو مخزن مركزي ومنظم مصمم للاستعلامات التحليلية والتقارير. على عكس قواعد البيانات التشغيلية التي تتعامل مع المعاملات التجارية اليومية، يقوم data warehouse بتجميع البيانات من مصادر متعددة في صيغة محسنة للتحليل.

عادة ما يتطلب بناء data warehouse حديث ما يلي:

  • استيعاب البيانات - نقل البيانات من أنظمة المصدر إلى المستودع.
  • Data storage - تخزين البيانات بصيغة محسن للتحليلات.
  • معالجة البيانات - تحويل البيانات إلى صيغة جاهزة للاستهلاك بواسطة الأدوات التحليلية.
  • تحليل البيانات وتسليمها - تحليل البيانات للحصول على رؤى وتقديمها للأعمال.

تصميم data warehouse

تحتوي مستودعات البيانات على جداول منظمة في مخطط محسن للنمذجة متعددة الأبعاد. في هذا النهج، تقوم بتجميع البيانات الرقمية المتعلقة بالأحداث حسب خصائص مختلفة. على سبيل المثال، يمكنك تحليل إجمالي المبلغ المدفوع لأوامر المبيعات التي حدثت في تاريخ معين أو في متجر معين.

الجداول في data warehouse

تنظم جداول data warehouse لدعم التحليل الفعال لكميات كبيرة من البيانات. هذا التنظيم، المعروف بالنمذجة البعدية، يتضمن هيكلة الجداول إلى جداول حقائق وجداول أبعاد.

جداول الحقائق تحتوي على البيانات الرقمية التي ترغب في تحليلها. عادة ما تحتوي جداول الحقائق على عدد كبير من الصفوف وهي المصدر الأساسي للبيانات للتحليل. على سبيل المثال، قد يحتوي جدول الحقائق على المبلغ الإجمالي المدفوع لأوامر المبيعات التي حدثت في تاريخ معين أو في متجر معين.

تحتوي جداول الأبعاد على معلومات وصفية عن البيانات في جداول الحقائق. عادة ما تحتوي جداول الأبعاد على عدة صفوف وتوفر سياقا للبيانات في جداول الحقائق. على سبيل المثال، قد يحتوي جدول الأبعاد على معلومات حول العملاء الذين وضعوا أوامر المبيعات.

بالإضافة إلى أعمدة السمات، يحتوي جدول الأبعاد على عمود مفتاح فريد يحدد كل صف في الجدول بشكل فريد. في الواقع، من الشائع أن يتضمن جدول الأبعاد عمودين رئيسيين:

  • المفتاح البديل هو معرف فريد لكل صف في جدول الأبعاد. غالبا ما تكون قيمة صحيحة يولدها نظام إدارة قاعدة البيانات تلقائيا عند إدخال صف جديد.
  • المفتاح البديل غالبا ما يكون مفتاحا طبيعيا أو تجاريا يحدد نسخة محددة من كيان في نظام المصدر المعاملي - مثل رمز المنتج أو معرف العميل.

تحتاج إلى مفاتيح بديلة ومفاتيح بديلة في data warehouse، لأنها تخدم أغراضا مختلفة. مفاتيح البديل مخصصة ل data warehouse وتساعد في الحفاظ على الاتساق والدقة. المفاتيح البديلة مخصصة للنظام المصدر وتساعد في الحفاظ على قابلية التتبع بين data warehouse والنظام المصدر.

أنواع خاصة من جداول الأبعاد

توفر أنواع الأبعاد الخاصة سياقا إضافيا وتمكن من تحليل البيانات بشكل أكثر شمولا.

توفر أبعاد الزمن معلومات عن الفترة الزمنية التي حدث فيها الحدث. يُمكّن هذا الجدول محللي البيانات من تجميع البيانات على فترات زمنية. على سبيل المثال، قد يشمل بعد الزمن أعمدة للسنة والربع والشهر ويوم طلب البيع.

التغيرات البطيئة في الأبعاد تتبع التغيرات في خصائص الأبعاد مع مرور الوقت، مثل التغيرات في عنوان العميل أو سعر المنتج. هي مهمة في data warehouse لأنها تتيح لك تحليل وفهم التغيرات في البيانات مع مرور الوقت. تضمن الأبعاد المتغيرة ببطء بقاء البيانات up-toالتاريخ والدقة، وهو أمر مهم لاتخاذ قرارات تجارية جيدة.

تصاميم مخطط Data warehouse

في معظم قواعد البيانات المعاملية المستخدمة في تطبيقات الأعمال، يتم تطبيع البيانات لتقليل التكرار. أما في data warehouse، فيتم إلغاء تهيئة بيانات الأبعاد* لتقليل عدد الروابط المطلوبة للاستعلام عن البيانات.

غالبا ما يستخدم data warehouse مخطط star schema، حيث يرتبط جدول الحقائق مباشرة بجداول الأبعاد، كما هو موضح في هذا المثال:

رسم تخطيطي لمخطط نجمي يعرض جدول FactSales بخمسة أبعاد تشكل شكل نجم.

يمكنك استخدام سمات الأبعاد لتجميع أرقام جداول الحقائق على مستويات مختلفة. على سبيل المثال، يمكنك العثور على إجمالي إيرادات المبيعات لمنطقة بأكملها أو لعميل واحد فقط. يمكنك تخزين معلومات كل مستوى في نفس جدول الأبعاد.

تلميح

انظر ما هو مخطط النجوم؟ لمزيد من المعلومات حول تصميم مخططات النجوم للقماش.

إذا كان هناك العديد من المستويات أو السمات المشتركة بين أشياء مختلفة، قد يكون من المنطقي استخدام مخطط رقاقات الثلج بدلا من ذلك. إليك مثال:

مخطط مخطط رقاقات الثلج يعرض أبعادا متعددة.

في هذه الحالة، ينقسم جدول DimProduct (يطبع) إلى جداول أبعاد منفصلة لفئات المنتجات والموردين.

  • يحتوي كل صف في جدول DimProduct على قيم رئيسية للصفوف المقابلة في جداول DimCategoryوDimSupplier.

يحتوي جدول DimGeography على معلومات حول مواقع وجود العملاء والمتاجر.

  • يحتوي كل صف في جداول DimCustomerوDimStore على قيمة رئيسية للصف المقابل في جدول DimGeography .