فهم أساسيات مستودع البيانات

مكتمل

تتكون عملية بناء مستودع بيانات حديث عادة من:

  • استيعاب البيانات - نقل البيانات من أنظمة المصدر إلى مستودع بيانات.
  • تخزين البيانات - تخزين البيانات بتنسيق محسن للتحليات.
  • معالجة البيانات - تحويل البيانات إلى تنسيق جاهز للاستهلاك بواسطة الأدوات التحليلية.
  • تحليل البيانات وتسليمها - تحليل البيانات للحصول على رؤى وتقديم تلك الرؤى للأعمال.

يتيح Microsoft Fabric لمهندسي البيانات والمحللين استيعاب البيانات وتخزينها وتحويلها وتصورها كلها في أداة واحدة باستخدام كل من التعليمات البرمجية المنخفضة والخبرة التقليدية.

فهم تجربة مستودع بيانات Fabric

مستودع بيانات Fabric هو مستودع بيانات علائقي يدعم قدرات T-SQL الكاملة للمعاملات التي تتوقعها من مستودع بيانات المؤسسة. إنه مستودع بيانات مدار بالكامل وقابل للتطوير ومتاح بدرجة عالية يمكن استخدامه لتخزين البيانات والاستعلام عنها في Lakehouse. باستخدام مستودع البيانات، يمكنك التحكم الكامل في إنشاء الجداول وتحميلها وتحويلها والاستعلام عن البيانات باستخدام إما مدخل Fabric أو أوامر T-SQL. يمكنك استخدام SQL للاستعلام عن البيانات وتحليلها، أو استخدام Spark لمعالجة البيانات وإنشاء نماذج التعلم الآلي.

تسهل مستودعات البيانات في Fabric التعاون بين مهندسي البيانات ومحللي البيانات، والعمل معا في نفس التجربة. يبني مهندسو البيانات طبقة ارتباطية أعلى البيانات في Lakehouse، حيث يمكن للمحللين استخدام T-SQL وPower BI لاستكشاف البيانات.

تصميم مستودع بيانات

مثل جميع قواعد البيانات الارتباطية، يحتوي مستودع بيانات Fabric على جداول لتخزين بياناتك لتحليلاتها لاحقا. الأكثر شيوعا، يتم تنظيم هذه الجداول في مخطط محسن للنمذجة متعددة الأبعاد. في هذا النهج، يتم تجميع البيانات الرقمية المتعلقة بالأحداث (مثل أوامر المبيعات) حسب سمات مختلفة (مثل التاريخ والعميل والمخزن). على سبيل المثال، يمكنك تحليل إجمالي المبلغ المدفوع لأوامر المبيعات التي حدثت في تاريخ معين أو في متجر معين.

الجداول في مستودع بيانات

عادة ما يتم تنظيم الجداول في مستودع البيانات بطريقة تدعم التحليل الفعال والفعال لكميات كبيرة من البيانات. غالبا ما يشار إلى هذه المؤسسة باسم نمذجة الأبعاد، والتي تتضمن هيكلة الجداول في جداول الحقائق وجداول الأبعاد.

تحتوي جداول الحقائق على البيانات الرقمية التي تريد تحليلها. عادة ما تحتوي جداول الحقائق على عدد كبير من الصفوف وهي المصدر الأساسي للبيانات للتحليل. على سبيل المثال، قد يحتوي جدول الحقائق على المبلغ الإجمالي المدفوع لأوامر المبيعات التي حدثت في تاريخ معين أو في متجر معين.

تحتوي جداول الأبعاد على معلومات وصفية حول البيانات في جداول الحقائق. عادة ما تحتوي جداول الأبعاد على عدد صغير من الصفوف وتستخدم لتوفير سياق للبيانات في جداول الحقائق. على سبيل المثال، قد يحتوي جدول الأبعاد على معلومات حول العملاء الذين وضعوا أوامر المبيعات.

بالإضافة إلى أعمدة السمات، يحتوي جدول الأبعاد على عمود مفتاح فريد يحدد كل صف في الجدول بشكل فريد. في الواقع، من الشائع أن يتضمن جدول الأبعاد عمودين رئيسيين:

  • المفتاح البديل هو معرف فريد لكل صف في جدول الأبعاد. غالبا ما تكون قيمة عدد صحيح يتم إنشاؤها تلقائيا بواسطة نظام إدارة قاعدة البيانات عند إدراج صف جديد في الجدول.
  • غالبا ما يكون المفتاح البديل هو مفتاح طبيعي أو مفتاح عمل يحدد مثيلا معينا للكيان في نظام مصدر المعاملات - مثل رمز المنتج أو معرف العميل.

تحتاج إلى كل من المفاتيح البديلة والمفاتيح البديلة في مستودع البيانات، لأنها تخدم أغراضا مختلفة. المفاتيح البديلة خاصة بمستودع البيانات وتساعد على الحفاظ على الاتساق والدقة في البيانات. المفاتيح البديلة من ناحية أخرى خاصة بالنظام المصدر وتساعد على الحفاظ على إمكانية التتبع بين مستودع البيانات والنظام المصدر.

أنواع خاصة من جداول الأبعاد

توفر أنواع الأبعاد الخاصة سياقا إضافيا وتمكن من تحليل البيانات بشكل أكثر شمولا.

توفر الأبعاد الزمنية معلومات حول الفترة الزمنية التي وقع فيها الحدث. يُمكّن هذا الجدول محللي البيانات من تجميع البيانات على فترات زمنية. على سبيل المثال، قد يتضمن البعد الزمني أعمدة للسنة والربع والشهر واليوم الذي تم فيه وضع أمر مبيعات.

الأبعاد المتغيرة ببطء هي جداول الأبعاد التي تتعقب التغييرات في سمات الأبعاد بمرور الوقت، مثل التغييرات في عنوان العميل أو سعر المنتج. إنها مهمة في مستودع البيانات لأنها تمكن المستخدمين من تحليل التغييرات على البيانات وفهمها بمرور الوقت. تضمن الأبعاد المتغيرة ببطء بقاء البيانات محدثة ودقيقة، وهو أمر ضروري لاتخاذ قرارات تجارية جيدة.

تصاميم مخطط مستودع بيانات

في معظم قواعد بيانات المعاملات المُستخدمة في تطبيقات الأعمال، تُسوى البيانات لتقليل التكرار. مع ذلك، في مستودع البيانات تُلغى تسوية بيانات الأبعاد بشكل عام لتقليل عدد الصلات المطلوبة للاستعلام عن البيانات.

غالبًا ما يُنظم مستودع البيانات كمخطط نجمي، حيث يرتبط جدول الحقائق مباشرة بجداول الأبعاد، كما هو موضح في هذا المثال:

Diagram of a star schema design displaying a FactSales table with five dimensions that form the shape of a star.

يمكنك استخدام سمات شيء ما لتجميع الأرقام معا في جدول الحقائق على مستويات مختلفة. على سبيل المثال، يمكنك العثور على إجمالي إيرادات المبيعات لمنطقة بأكملها أو لعميل واحد فقط. يمكن تخزين المعلومات الخاصة بكل مستوى في نفس جدول الأبعاد.

تلميح

راجع ما هو المخطط النجمي؟ لمزيد من المعلومات حول تصميم المخططات النجمية ل Fabric.

إذا كان هناك الكثير من المستويات أو تمت مشاركة بعض المعلومات من قبل أشياء مختلفة، فقد يكون من المنطقي استخدام مخطط البلورة الثلجية بدلا من ذلك. إليك مثال:

Diagram of a snowflake schema design displaying multiple dimensions.

في هذه الحالة، تم تقسيم جدول DimProduct (تمت تسويته) لإنشاء جداول أبعاد منفصلة لفئات المنتجات والموردين.

  • يحتوي كل صف في الجدول DimProduct على قيم رئيسية للصفوف المقابلة في جدولي DimCategory و DimSupplier.

تمت إضافة جدول DimGeography يحتوي على معلومات حول مكان وجود العملاء والمتاجر.

  • يحتوي كل صف في جدولي DimCustomer و DimStore على قيمة مفتاح للصف المقابل في جدول DimGeography .