تحسين أداء Dataflows Gen2
تحولاتك تنجح. حان الوقت الآن لجعلها فعالة. تدفق البيانات الذي يستغرق دقائق بدلا من ساعات للتحديث يوفر موارد الحوسبة ويبقي المستهلكين في المراحل النهائية يعملون مع البيانات الحالية. يتضمن Dataflow Gen2 مقيم الاستعلامات الحديث لتحسين الأداء، ويدعم تقنيات مثل طي الاستعلامات وخطوات المعاينة فقط لتحسين تنفيذ التحديث.
مقيم الاستعلامات الحديثة
يوفر مقيم الاستعلامات الحديثة أداء محسنا وموثوقية لتحويلات Power Query في Dataflow Gen2. يوفر هذا التحديث تحسينا أفضل عبر أنماط التشكيل الشائعة، مما يساعد فرق البيانات على تقليل أوقات التحديث من البداية إلى النهاية وتوسيع أعباء عمل التحويل بثقة أكبر مع زيادة حجم البيانات.
يتم تفعيل مقيم الاستعلامات الحديثة افتراضيا لجميع مثيلات Dataflow Gen2 ويوفر:
- تحديثات أسرع لخطوط التشكيل متعددة الخطوات التي تتضمن الانضمام، والمجموعات بالتجمعات، وتحويلات الأنواع، والتعبيرات المعقدة
- تنفيذ أكثر قابلية للتنبؤ عند توسيع تدفق بيانات واحد إلى مجموعات بيانات أكبر أو جداول ذات تردد أعلى
- استخدام أفضل للموارد من خلال تحسين تحسين الاستعلامات
لا تحتاج إلى تكوين أي شيء للاستفادة من مقيم الاستعلامات الحديث—فهو يعالج تلقائيا تحويلات تدفق البيانات الخاصة بك مع هذه التحسينات في الأداء.
فهم طي الاستعلام
طي الاستعلام هو عملية دفع منطق التحويل من Power Query إلى مصدر البيانات لتنفيذ المعلومات. بدلا من تحميل كل البيانات الخام ومعالجتها في محرك Power Query، يقوم طي الاستعلام بترجمة خطوات M إلى لغة استعلام أصلية (مثل SQL) ينفذها مصدر البيانات. ثم يعيد المصدر النتائج المحولة فقط.
هذا النهج أسرع لأن:
- عادة ما يحتوي مصدر البيانات على موارد حوسبة أكبر ويكون محسنا لتنفيذ الاستعلامات.
- نقل البيانات أقل عبر الشبكة لأن التصفية والتجميع تحدث قبل مغادرة البيانات المصدر.
- محرك Power Query يقوم بمعالجة أقل، مما يقلل من وقت التحديث واستهلاك الموارد.
هناك ثلاث نتائج ممكنة عند تقييم طي الاستعلام:
| النتيجة | الوصف |
|---|---|
| الطي الكامل | جميع التحولات تدفع إلى مصدر البيانات. محرك Power Query يتلقى النتيجة النهائية مع معالجة قليلة. |
| الطي الجزئي | يتم دفع بعض التحولات إلى المصدر، وتعمل الخطوات المتبقية في محرك Power Query. |
| لا يوجد طي | لا يتم دفع أي تحولات إلى المصدر. يقوم Power Query بتنزيل البيانات الخام ويعالج كل شيء محليا. |
الطي الكامل هو النتيجة المثالية للأداء. الطي الجزئي مقبول عندما تكون هناك خطوات خفيفة فقط محلية. لا ينبغي تجنب الطي لمجموعات البيانات الكبيرة لأنه يجبر جميع البيانات على المرور عبر محرك Power Query.
تحقق مما إذا كانت الخطوة تطوي
يمكنك التحقق مما إذا كانت خطوة معينة تنطوي بالنقر بزر الفأرة الأيمن على الخطوة في قسم الخطوات التطبيقية والبحث عن خيار عرض الاستعلام الأصلي .
- إذا كان خيار عرض الاستعلام الأصلي متاحا، فإن الخطوة تنتقل إلى مصدر البيانات.
- إذا تم إلغاء الخيار في الوضع الرمادي، فإن تلك الخطوة وجميع الخطوات التالية تعمل في محرك Power Query - أي أن الاستعلام لا ينطوى التشغيل.
تحقق من الطي بانتظام أثناء بناء تحولاتك. معرفة أماكن انكسار الطي تساعدك على إعادة هيكلة خطواتك لتعظيم ما يتعامل معه المصدر.
ملاحظة
يتوفر طي الاستعلامات بشكل أساسي من خلال مصادر بيانات منظمة مثل قواعد بيانات SQL وخلاصات OData. المصادر القائمة على الملفات مثل CSV و Excel عادة لا تدعم طي الاستعلامات.
طبق أنماطا مناسبة للطي
بعض التحولات تطوي بشكل موثوق لمعظم مصادر البيانات المنظمة، بينما تنكسر أخرى الطي. فهم هذا التمييز يساعدك على ترتيب خطواتك لتحقيق أداء أفضل.
التحويلات التي عادة ما تطوي:
- صفوف التصفية (جمل WHERE)
- اختر أو أزل الأعمدة (اختر أعمدة محددة)
- ترتيب الصفوف (الطلب حسب الطلب)
- المجموعة حسب و التجميع (GROUP BY مع SUM وCOUNT ودوال مشابهة)
- استعلامات دمج من نفس المصدر (JOIN)
- تغيير أنواع البيانات (CAST)
- إعادة تسمية الأعمدة (أسماء مستعارة AS)
التحويلات التي عادة ما تكسر الطية:
- أضف أعمدة مخصصة تحتوي على تعبيرات M مركبة
- عمليات التحول وإلغاء المحور
- دمج الاستعلامات من مصادر بيانات مختلفة
- عمليات استخدام
Table.Bufferالقوة في تقييم - بعض تحويلات النصوص ذات الدوال الخاصة ب M
عندما ينكسر الطي عند خطوة، تعمل جميع الخطوات التالية أيضا في محرك Power Query. ترتيب التحولات مهم لدعم طي الاستعلامات.
استخدم خطوات المعاينة فقط للتكرار الفعال
الخطوات التي تعتمد فقط على المعاينة تتيح لك إضافة خطوات تحويل تعمل أثناء معاينة البيانات والتحقق من تأليف البيانات لكنها تستبعد من التنفيذ النهائي أثناء التحديث. خطوات المعاينة فقط تساعدك على التكرار بشكل أسرع مع الحفاظ على منطق تحديث الإنتاج نظيفا وكفاءة.
لوضع علامة على خطوة كمعاينة فقط، انقر بزر الفأرة الأيمن على الخطوة في لوحة الخطوات التطبيقية واختر تمكين فقط في المعاينات. تشمل الاستخدامات الشائعة لخطوات المعاينة فقط:
- تسريع التأليف عن طريق أخذ عينات أو تصفية أو تحديد الصفوف خلال وقت التصميم دون تغيير مخرجات الإنتاج
- تجربة أكثر أمانا عند اختبار خطوات جديدة—إبقاء المنطق الاستكشافي خارج التحديث المجدول
- قم بتصحيح السيناريوهات المحددة بإضافة فلاتر مؤقتة للتركيز على صفوف المشاكل
خطوات المعاينة فقط مفيدة عند العمل مع مجموعات بيانات كبيرة حيث تريد رؤية عينة ممثلة أثناء التطوير، لكنك تحتاج إلى مجموعة البيانات الكاملة في الإنتاج.
اتباع أفضل ممارسات الأداء
بعيدا عن طي الاستعلامات ومقيم الاستعلامات الحديث، هناك عدة ممارسات أخرى تساعد تدفقات بياناتك على العمل بكفاءة:
قم بالتصفية مبكرا. طبق فلاتر الصفوف كخطوات أولى في استفسارك. تقليل عدد الصفوف مبكرا يعني أن كل تحويل لاحق يعالج بيانات أقل.
اختر الأعمدة مبكرا. قم بإزالة الأعمدة التي لا تحتاجها بأسرع وقت ممكن. الأعمدة الأقل تعني بيانات أقل للمعالجة والنقل.
تعطيل الأحمال غير الضرورية. إذا كان الاستعلام يعمل فقط كاستعلام مرحلي أو مرجعي (على سبيل المثال، جدول بحث يستخدم في الدمج)، انقر بزر الفأرة الأيمن على الاستعلام في لوحة الاستعلامات وألغ خيار تمكين التحميل. تمنع هذه الميزة تحميل استعلام المراحل إلى الوجهة، مما يقلل من وقت المعالجة.
استخدم تدفقات البيانات المرحلية. بالنسبة للسيناريوهات المعقدة، افصل الاستخراج عن التحويل. أنشئ تدفق بيانات واحد يستخرج وينظم البيانات الخام في بيت بحيرة. أنشئ تدفق بيانات ثان يقرأ من بيت البحيرة المرحلي ويطبق التحولات. يقدم هذا النمط عدة فوائد:
- منطق الاستخراج مستقل ويمكنه التحديث حسب جدوله.
- يمكن لتدفقات بيانات التحويل المتعددة إعادة استخدام نفس البيانات المطورة.
- إذا فشل التحويل، تظل البيانات الخام متاحة لإعادة المعالجة.
قم بتحديد المعلمات لإعادة الاستخدام. يدعم Dataflow Gen2 نهجين لمعالجة معايير البيئة. المعلمات العامة متوفرة في Dataflow Gen2 القياسي وتتيح لك تحديد مدخلات قابلة لإعادة الاستخدام (مثل قيم المرشحات أو أسماء الوجهات) يمكن تجاوزها أثناء التشغيل عبر خط الأنابيب. توفر Fabric Variable Libraries قيم تكوين مركزية على مستوى مساحة العمل يتم الإشارة إليها مباشرة في سكريبت تدفق البيانات. Fabric المكتبات المتغيرة تتطلب Dataflow Gen2 مع CI/CD، وهو متغير يمكنك تفعيله عند الإنشاء باختيار خيار دمج Git. كلا النهجين يقللان من انحراف التكوين عند تعزيز الحلول عبر بيئات CI/CD.
أداء تحديث المراقبة. استخدم مركز المراقبة في Fabric وسجل التحديث في تدفق البيانات لتتبع المدة التي تستغرقها تدفقات البيانات للتحديث. ابحث عن اتجاهات تشير إلى نمو مجموعات البيانات أو تحولات غير فعالة. تنبيهات البريد الإلكتروني تخبرك عند فشل التحديثات المجدولة، حتى تتمكن من الرد بسرعة وإصلاح المشكلات قبل أن تؤثر على المستهلكين في مرحلة ما بعد التدفق.
اتباع هذه الممارسات يساعد تدفقات البيانات على التوسع مع نمو حجم البيانات، ويحافظ على تحديث بياناتك المحولة ومتاحة للتحليلات اللاحقة وأحمال العمل في الذكاء الاصطناعي.