فهم مستودعات البيانات في Fabric
Fabric's Lakehouse عبارة عن مجموعة من الملفات والمجلدات والجداول والاختصارات التي تعمل مثل قاعدة بيانات عبر مستودع بيانات. يتم استخدامه من قبل محرك Spark ومحرك SQL لمعالجة البيانات الضخمة ويحتوي على ميزات لمعاملات ACID عند استخدام جداول Delta المنسقة مفتوحة المصدر.
تتيح لك تجربة مستودع البيانات في Fabric الانتقال من طريقة عرض بحيرة Lakehouse (التي تدعم هندسة البيانات وApache Spark) إلى تجارب SQL التي سيوفرها مستودع البيانات التقليدي. يمنحك Lakehouse القدرة على قراءة الجداول واستخدام نقطة نهاية تحليلات SQL، بينما يتيح لك مستودع البيانات معالجة البيانات.
في تجربة مستودع البيانات، ستقوم بنمذجة البيانات باستخدام الجداول وطرق العرض، وتشغيل T-SQL للاستعلام عن البيانات عبر مستودع البيانات و Lakehouse، واستخدام T-SQL لتنفيذ عمليات DML على البيانات داخل مستودع البيانات، وخدمة طبقات التقارير مثل Power BI.
الآن بعد أن فهمت مبادئ البنية الأساسية لمخطط مستودع البيانات الارتباطية، لنستكشف كيفية إنشاء مستودع بيانات.
وصف مستودع بيانات في Fabric
في تجربة مستودع البيانات في Fabric، يمكنك إنشاء طبقة ارتباطية أعلى البيانات المادية في Lakehouse وعرضها لأدوات التحليل وإعداد التقارير. يمكنك إنشاء مستودع البيانات مباشرة في Fabric من مركز الإنشاء أو داخل مساحة عمل. بعد إنشاء مستودع فارغ، يمكنك إضافة كائنات إليه.
بمجرد إنشاء المستودع الخاص بك، يمكنك إنشاء جداول باستخدام T-SQL مباشرة في واجهة Fabric.
استيعاب البيانات في مستودع البيانات
هناك بعض الطرق لاستيعاب البيانات في مستودع بيانات Fabric، بما في ذلك البنية الأساسية لبرنامج ربط العمليات التجارية وتدفقات البيانات والاستعلام عبر قاعدة البيانات والأمر COPY INTO. بعد الاستيعاب، تصبح البيانات متاحة للتحليل من قبل مجموعات أعمال متعددة، الذين يمكنهم استخدام ميزات مثل الاستعلام عبر قاعدة البيانات والمشاركة للوصول إليها.
إنشاء جداول
لإنشاء جدول في مستودع البيانات، يمكنك استخدام SQL Server Management Studio (SSMS) أو عميل SQL آخر للاتصال بمستودع البيانات وتشغيل عبارة CREATE TABLE. يمكنك أيضا إنشاء جداول مباشرة في واجهة مستخدم Fabric.
يمكنك نسخ البيانات من موقع خارجي إلى جدول في مستودع البيانات باستخدام بناء الجملة COPY INTO
. على سبيل المثال:
COPY INTO dbo.Region
FROM 'https://mystorageaccountxxx.blob.core.windows.net/private/Region.csv' WITH (
FILE_TYPE = 'CSV'
,CREDENTIAL = (
IDENTITY = 'Shared Access Signature'
, SECRET = 'xxx'
)
,FIRSTROW = 2
)
GO
يقوم استعلام SQL هذا بتحميل البيانات من ملف CSV المخزن في Azure Blob Storage في جدول يسمى "المنطقة" في مستودع بيانات Fabric.
عملية اعتبارات الجدول
بعد إنشاء جداول في مستودع بيانات، من المهم مراعاة عملية تحميل البيانات في تلك الجداول. النهج الشائع هو استخدام جداول التقسيم المرحلي. في Fabric، يمكنك استخدام أوامر T-SQL لتحميل البيانات من الملفات إلى جداول التقسيم المرحلي في مستودع البيانات.
الجداول المرحلية هي جداول مؤقتة يمكن استخدامها لإجراء تنقية البيانات وتحويلات البيانات والتحقق من صحة البيانات. يمكنك أيضا استخدام جداول التقسيم المرحلي لتحميل البيانات من مصادر متعددة في جدول وجهة واحد.
عادة ما يتم تنفيذ تحميل البيانات كعملية دفعية دورية يتم فيها تنسيق عمليات الإدراج والتحديث لمستودع البيانات لتحدث على فترات منتظمة (على سبيل المثال، يوميا أو أسبوعيا أو شهريا).
بشكل عام، يجب تنفيذ عملية تحميل مستودع البيانات التي تنفذ المهام بالترتيب التالي:
- استيعاب البيانات الجديدة التي سيتم تحميلها في مستودع بيانات، وتطبيق التطهير المسبق للتحميل أو التحويلات كما هو مطلوب.
- تحميل البيانات من الملفات إلى جداول التقسيم المرحلي في مستودع البيانات العلائقية.
- قم بتحميل جداول الأبعاد من بيانات البعد في جداول التقسيم المرحلي، أو تحديث الصفوف الموجودة أو إدراج صفوف جديدة وإنشاء قيم مفاتيح بديلة حسب الضرورة.
- قم بتحميل جداول الحقائق من بيانات الحقائق في جداول التقسيم المرحلي، والبحث عن المفاتيح البديلة المناسبة للأبعاد ذات الصلة.
- إجراء تحسين ما بعد التحميل عن طريق تحديث الفهارس وإحصائيات توزيع الجدول.
إذا كان لديك جداول في مستودع البحيرة، وتريد أن تكون قادرا على الاستعلام عنه في مستودعك - ولكن ليس إجراء تغييرات - باستخدام مستودع بيانات Fabric، فلن تضطر إلى نسخ البيانات من مستودع البيانات إلى مستودع البيانات. يمكنك الاستعلام عن البيانات في مستودع البيانات مباشرة من مستودع البيانات باستخدام الاستعلام عبر قاعدة البيانات.
هام
العمل مع الجداول في مستودع بيانات Fabric له بعض القيود حاليا. راجع الجداول في تخزين البيانات في Microsoft Fabric لمزيد من المعلومات.