فهم تدفق البيانات Gen2

مكتمل

قبل أن تبدأ في تحويل البيانات، من المفيد أن تفهم ما هي Dataflows Gen2، وكيف تعمل، ومتى تكون الأداة المناسبة لهذه المهمة. يوفر Dataflows Gen2 واجهة منخفضة الكود لبناء عمليات تحويل بيانات قابلة للتوسع تعمل في السحابة باستخدام Power Query.

ما هي Dataflows Gen2؟

Dataflows Gen2 هي أدوات ETL (استخراج، تحويل، تحميل) سحابية تستخدم Power Query للاتصال بمصادر البيانات، وتطبيق التحولات، وتحميل النتائج إلى وجهة. تقوم Dataflows Gen2 ببناء منطق التحويل بصريا باستخدام Power Query Online. محرر Power Query هو نفس الواجهة المتوفرة في Excel وPower BI Desktop ومنتجات Microsoft الأخرى. كل تحويل تطبقه يسجل كخطوة مطبقة، مما يخلق وصفة قابلة للتدقيق والتكرار لإعداد البيانات.

تعمل تدفقات البيانات في Microsoft Fabric باستخدام موارد الحوسبة المدارة. لا تحتاج إلى بناء البنية التحتية، أو تكوين بوابات لمصادر السحابة، أو إدارة بيئات التنفيذ. عندما تنشر تدفق بيانات، يتولى Fabric عملية الحساب، والجدولة، والمراقبة.

ملاحظة

بعد المرجع الأول، تستخدم هذه الوحدة مصطلح "تدفقات البيانات" كاختصار لإصدار Dataflows Gen2. الإصدارات السابقة تعرف باسم "Gen1" أو "Power BI dataflows".

قدرات Dataflows Gen2

يوفر Dataflows Gen2 في Fabric عدة قدرات تدعم إعداد بيانات المؤسسات:

  • اتصل بمئات مصادر البيانات. سحب البيانات من قواعد البيانات السحابية والمحلية، الملفات، خدمات الويب، تطبيقات SaaS، ومنتجات Fabric مثل بيوت البحيرات والمستودعات.
  • طبق 300+ تحويل. تصفية وفرز ودمج وتحويل وجمع وإعادة تشكيل البيانات باستخدام واجهة Power Query. يمكنك أيضا كتابة تعبيرات لغة M مخصصة للمنطق المتقدم.
  • حمل الرحلة إلى عدة وجهات. إرسال البيانات المحولة إلى Fabric lakehouses، المستودعات، قواعد بيانات SQL، قاعدة بيانات Azure SQL، Azure Data Lake Storage Gen2 (ADLS Gen2)، Azure Data Explorer ‏(Kusto)، Snowflake، وغيرها من الوجهات المدعومة.
  • الحفظ التلقائي والنشر في الخلفية. يتم حفظ عملك تلقائيا أثناء التقدم. عند النشر، يتم التحقق من صحتك في الخلفية مع التحقق من الاستعلام المتوازي لنشر أسرع.
  • جدولة وأتمتة. شغل تدفقات البيانات يدويا، أو على جدول تحديث مع دعم المعلمات، أو كجزء من خط أنابيب بيانات للتنسيق مع أنشطة أخرى. تنبيهات البريد الإلكتروني تخبرك عندما تفشل التحديثات المجدولة.
  • مساعدة مدعومة بالذكاء الاصطناعي. استخدم ملاحظات اللغة الطبيعية لإنشاء التحولات، وشرح الخطوات، وفهم استفسارك مع Copilot للعبة Dataflow Gen2.
  • قابلية النقل في البيئة. استخدم مكتبات Fabric Variable والمراجع النسبية لتعزيز تدفقات البيانات عبر البيئات مع تعديلات يدوية أقل لإدارة دورة الحياة.

وجهات الإخراج

عند تكوين تدفق البيانات، تختار مكان تحميل البيانات المحولة. يطبق تدفق البيانات تحولاتك خلال كل تحديث ويكتب النتائج إلى وجهتك المختارة. تشمل الوجهات الرئيسية:

الوجهة الوصف
بيت البحيرة تحميل البيانات كجداول أو ملفات Delta (CSV، Parquet، Excel (معاينة))
المستودع تحميل البيانات إلى جداول المستودعات مع دعم المخطط
Azure Data Lake Storage Gen2 كتابة الملفات مباشرة إلى تخزين ADLS Gen2
قاعدة بيانات Azure SQL تحميل البيانات إلى قواعد بيانات SQL خارجية
Fabric SQL database تحميل البيانات إلى جداول قاعدة بيانات SQL في Fabric
SharePoint files اكتب نصا محددا أو ملفات Excel على SharePoint
Azure Data Explorer ‏(Kusto) (كوستو) تحميل البيانات إلى قواعد بيانات Kusto وقواعد بيانات KQL
Snowflake تحميل البيانات إلى قواعد بيانات سنوفليك

عند تكوين وجهة، تختار أيضا طريقة تحديث تحدد كيفية تحميل البيانات خلال كل تحديث:

  • الاستبدال: يسقط ويعيد إنشاء الوجهة مع كل تحديث لتوفير لقطة كاملة للبيانات المحولة
  • الإضافة: تضيف صفوفا جديدة إلى الوجهة الحالية دون إزالة البيانات السابقة للأحمال التزايدية حيث يجب أن تستمر البيانات التاريخية
  • تحديث تدريجي: يقوم بتحديث البيانات الجديدة أو المتغيرة فقط باستخدام عمود DateTime، ويقسم البيانات إلى دلاء زمنية قابلة للتكوين. الوجهات المدعومة هي Fabric Lakehouse وFabric Warehouse وقاعدة بيانات Azure SQL. تقلل هذه الطريقة بشكل كبير من وقت التحديث واستهلاك الموارد لمجموعات البيانات الكبيرة أو التي يتم تحديثها بشكل متكرر.

ملاحظة

الوجهات الواعية بالمخطط (Lakehouses، المستودعات، وقواعد بيانات SQL) تدعم الكتابة في مخططات محددة، مما يمنحك تحكما أكبر في كيفية تنظيم الجداول ومحاذاة المخرجات مع تقاليد تسمية المؤسسات. تدعم قواعد بيانات Azure Data Explorer ‏(Kusto) وKQL فقط طريقة تحديث Append.

Tip

إضافة وجهة بيانات اختيارية. إذا لم تقم بتكوين واحد، فإن تدفق البيانات الخاص بك لا يزال يعمل ويعالج التحولات. يمكنك بعد ذلك استخدام تدفق البيانات كمصدر بيانات في خط أنابيب أو الاتصال به من Power BI.

مقارنة أنواع تدفق البيانات

تقدم Microsoft عدة أنواع من تدفق البيانات عبر منصاتها. فهم الفروقات يساعدك على اختيار الاختيار المناسب:

Type النظام الأساسي الأفضل ل
داتافلووز الجيل الثاني Microsoft Fabric إنتاج Lakehouse والمستودعات، أفضل أداء، دعم ل Copilot
Dataflows Gen1 خدمة Power BI تدفقات بيانات Power BI القديمة، للتخزين الداخلي فقط
تدفقات البيانات في Power Platform Power Apps، Power Automate إعداد بيانات تطبيقات الأعمال

إذا كنت تبدأ مشروعا جديدا في Fabric، استخدم Dataflows Gen2 للحصول على أفضل أداء ومجموعة ميزات.

متى تستخدم تدفقات البيانات

تعد تدفقات البيانات خيارا قويا عندما تنطبق أي من الشروط التالية:

  • تفضيل كود منخفض. فريقك مرتاح مع Power Query لكنه لا يكتب كود Spark أو T-SQL.
  • أنماط مألوفة. أعضاء الفريق يستخدمون بالفعل Power Query في Excel أو Power BI Desktop ويمكنهم تطبيق هذه المهارات مباشرة.
  • تحولات بسيطة إلى متوسطة. يشمل العمل التصفية، والدمج، وإعادة التشكيل، والتنظيف، وليس المعالجة الحاسوبية المكثفة.
  • منطق قابل لإعادة الاستخدام. تريد تعريف منطق التحول مرة واحدة وتطبيقه على وجهات أو مستهلكين متعددين.
  • وجهات متعددة. تحتاج إلى نفس البيانات المحولة محملة في كل من بيت البحيرة والمستودع.

متى يجب النظر في طرق أخرى

تدفقات البيانات ليست مناسبة لكل سيناريو. فكر في البدائل عندما:

  • التحويلات المعقدة تتطلب شيفرة. إذا كان المنطق يتضمن خوارزميات متقدمة، أو معالجة تكرارية، أو وصلات واسعة النطاق، توفر دفاتر Apache Spark مرونة وأداء أكبر.
  • معالجة البيانات على نطاق واسع. بالنسبة لمجموعات البيانات التي تتطلب حوسبة موزعة عبر العنقود، فإن دفاتر الدفاتر التي تحتوي على Spark هي الأنسب.
  • T-SQL كامل مطلوب. عندما تعتمد التحويلات على إجراءات مخزنة، أو الوصلات المعقدة، أو عمليات DML، فإن T-SQL في مستودع أو نقطة نهاية تحليلات SQL هي الخيار الأفضل.

غالبا ما يعتمد القرار على مهارات فريقك وتعقيد عمل التحول. تغطي تدفقات البيانات احتياجات التحويل الشائعة البالغة 80%، بينما تتعامل دفاتر الملاحظات وT-SQL مع ال 20%الأكثر تعقيدا.

كيف تدعم تدفقات البيانات منصة البيانات الذكية

الجداول التي تنتجها عبر تدفقات البيانات تصبح البيانات التي تعتمد عليها ميزات الذكاء الاصطناعي في Fabric. على سبيل المثال، عندما يطلب المستخدم Copilot في Power BI تلخيص اتجاهات المبيعات، Copilot يولد استعلاما مقابل الجداول الأساسية. إذا كانت تلك الجداول تحتوي على أسماء أعمدة واضحة وأنواع بيانات صحيحة، فإن الاستعلام يعطي نتائج دقيقة. إذا كانت البيانات غير واضحة أو غير واضحة، فإن الاستجابة غير موثوقة.

وينطبق نفس المبدأ على وكلاء بيانات Fabric. وكيل البيانات الذي يجيب على أسئلة اللغة الطبيعية حول منزلك في البحيرة لا يمكن أن يكون دقيقا إلا بقدر دقة البيانات التي يستعمل الاستعلام عنها. تدفقات البيانات تمنحك عملية قابلة للتكرار لضمان أن البيانات نظيفة، ومكتوبة بشكل جيد، ومنظمة بشكل متسق قبل أن تصل إلى تجارب الذكاء الاصطناعي اللاحقة.