فهم تدفقات البيانات Gen2 في Microsoft Fabric
في السيناريو لدينا، تحتاج إلى تطوير نموذج دلالي يمكنه توحيد البيانات وتوفير الوصول إلى الأعمال. باستخدام Dataflows Gen2، يمكنك الاتصال بمصادر البيانات المختلفة، ثم إعداد البيانات وتحويلها. للسماح بالوصول، يمكنك نقل البيانات مباشرة إلى Lakehouse أو استخدام مسار بيانات لوجهات أخرى.
ما هو تدفق البيانات؟
تدفقات البيانات هي نوع من أداة ETL المستندة إلى السحابة (استخراج وتحويل وتحميل) لبناء وتنفيذ عمليات تحويل البيانات القابلة للتطوير.
تسمح لك تدفقات البيانات Gen2 باستخراج البيانات من مصادر مختلفة، وتحويلها باستخدام مجموعة واسعة من عمليات التحويل، وتحميلها إلى وجهة. يسمح استخدام Power Query Online أيضا بواجهة مرئية لتنفيذ هذه المهام.
بشكل أساسي، يتضمن تدفق البيانات جميع التحويلات لتقليل وقت إعداد البيانات ثم يمكن تحميله في جدول جديد، أو تضمينه في Data Pipeline، أو استخدامه كمصدر بيانات من قبل محللي البيانات.
كيفية استخدام Dataflows Gen2
تقليديا، يقضي مهندسو البيانات وقتا كبيرا في استخراج البيانات وتحويلها وتحميلها إلى تنسيق قابل للاستهلاك لتحليلات انتقال البيانات من الخادم. الهدف من Dataflows Gen2 هو توفير طريقة سهلة وقابلة لإعادة الاستخدام لتنفيذ مهام ETL باستخدام Power Query Online.
إذا اخترت فقط استخدام Data Pipeline، يمكنك نسخ البيانات، ثم استخدام لغة الترميز المفضلة لديك لاستخراج البيانات وتحويلها وتحميلها. بدلا من ذلك، يمكنك إنشاء Dataflow Gen2 أولا لاستخراج البيانات وتحويلها. يمكنك أيضا تحميل البيانات في Lakehouse وجهات أخرى. الآن يمكن للأعمال أن تستهلك بسهولة النموذج الدلالي المنسق.
تعد إضافة وجهة بيانات إلى تدفق البيانات اختيارية، ويحافظ تدفق البيانات على جميع خطوات التحويل. لتنفيذ مهام أخرى أو تحميل البيانات إلى وجهة مختلفة بعد التحويل، أنشئ Data Pipeline وأضف نشاط Dataflow Gen2 إلى التنسيق الخاص بك.
قد يكون هناك خيار آخر هو استخدام مسار البيانات وDataflow Gen2 لعملية ELT (استخراج وتحميل وتحويل ). لهذا الطلب، يمكنك استخدام البنية الأساسية لبرنامج ربط العمليات التجارية لاستخراج البيانات وتحميلها في الوجهة المفضلة لديك، مثل Lakehouse. ثم يمكنك إنشاء Dataflow Gen2 للاتصال ببيانات Lakehouse لتطهير البيانات وتحويلها. في هذه الحالة، ستقدم تدفق البيانات كنموذج دلالي منسق لمحللي البيانات لتطوير التقارير.
يمكن تقسيم تدفقات البيانات أفقيا أيضا. بمجرد إنشاء تدفق بيانات عالمي، يمكن لمحللي البيانات استخدام تدفقات البيانات لإنشاء نماذج دلالية متخصصة لاحتياجات محددة.
تسمح لك تدفقات البيانات بترقية منطق ETL القابل لإعادة الاستخدام الذي يمنع الحاجة إلى إنشاء المزيد من الاتصالات بمصدر البيانات الخاص بك. توفر تدفقات البيانات مجموعة متنوعة من التحويلات، ويمكن تشغيلها يدويا، أو على جدول تحديث، أو كجزء من تنسيق Data Pipeline.
الميزات والقيود
هناك أكثر من طريقة واحدة لبيانات ETL أو ELT في Microsoft Fabric. ضع في اعتبارك فوائد وقيود استخدام Dataflows Gen2.
المزايا:
- توسيع البيانات باستخدام بيانات متسقة، مثل جدول أبعاد التاريخ القياسي.
- السماح لمستخدمي الخدمة الذاتية بالوصول إلى مجموعة فرعية من مستودع البيانات بشكل منفصل.
- تحسين الأداء مع تدفقات البيانات، والتي تمكن استخراج البيانات مرة واحدة لإعادة استخدامها، ما يقلل من وقت تحديث البيانات للمصادر الأبطأ.
- تبسيط تعقيد مصدر البيانات عن طريق تعريض تدفقات البيانات لمجموعات المحللين الأكبر حجما فقط.
- ضمان تناسق البيانات وجودتها من خلال تمكين المستخدمين من تنظيف البيانات وتحويلها قبل تحميلها إلى وجهة.
- تبسيط تكامل البيانات من خلال توفير واجهة منخفضة التعليمات البرمجية التي تدمج البيانات من مصادر مختلفة.
القيود:
- ليس بديلاً لمستودع بيانات.
- الأمان على مستوى الصف غير مدعوم.
- مساحة عمل سعة النسيج مطلوبة.