مراقبة تدفقات البيانات

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

بعد الانتهاء من إنشاء تدفق البيانات وتصحيحه، فأنت تريد جدولة تدفق البيانات الخاصة بك لتنفيذه وفقاً لجدول زمني في سياق خط التدفق. يمكنك جدولة خط التدفق باستخدام المشغلات. لاختبار وتصحيح أخطاء تدفق البيانات من البنية الأساسية لبرنامج ربط العمليات التجارية، يمكنك استخدام الزر Debug على شريط الأدوات أو خيار Trigger Now من Pipeline Builder لتنفيذ تنفيذ تشغيل واحد لاختبار تدفق البيانات داخل سياق المسار.

عند تنفيذ خط التدفق الخاص بك، يمكنك مراقبة خط التدفق وجميع الأنشطة الموجودة في خط التدفق بما في ذلك نشاط تدفق البيانات. حدد أيقونة جهاز العرض في لوحة واجهة المستخدم اليسرى. يمكنك رؤية شاشة مشابهة للشاشة التالية. تتيح لك الأيقونات المميزة إمكانية التنقل في الأنشطة الموجودة في المسار، بما في ذلك نشاط تدفق البيانات.

لقطة شاشة تعرض أيقونات لتحديد خطوط التدفق لمزيد من المعلومات.

يمكنك الاطلاع على الإحصائيات على هذا المستوى بما في ذلك أوقات التشغيل والحالة. يختلف معرف التشغيل على مستوى النشاط عن معرف التشغيل على مستوى خط التدفق. معرف التشغيل في المستوى السابق هو لخط التدفق. يمنحك اختيار النظارات تفاصيل عميقة عن تنفيذ تدفق البيانات.

لقطة شاشة تعرض أيقونة النظارات لمشاهدة تفاصيل تنفيذ تدفق البيانات.

عندما تكون في طريقة عرض مراقبة العقدة الرسومية، يمكنك مشاهدة نسخة مبسطة للعرض فقط من الرسم البياني لتدفق البيانات. لمشاهدة عرض التفاصيل مع عقد الرسم البياني الأكبر حجماً التي تتضمن تسميات مرحلة التحويل، استخدم شريط تمرير التكبير/التصغير على الجانب الأيمن من اللوحة القماشية. يمكنك أيضاً استخدام زر البحث على الجانب الأيمن للعثور على أجزاء من منطق تدفق البيانات في الرسم البياني.

لقطة شاشة تعرض نسخة العرض فقط للرسم البياني.

عرض خطط تنفيذ تدفق البيانات

عندما يتم تنفيذ Data Flow الخاص بك في Spark، تحدد الخدمة مسارات التعليمات البرمجية المثلى بناءً على تدفق البيانات بالكامل. بالإضافة إلى ذلك، قد تحدث مسارات التنفيذ على عقد توسيع وأقسام بيانات مختلفة. لذلك، يمثل الرسم البياني للمراقبة تصميم التدفق الخاص بك، مع مراعاة مسار تنفيذ تحويلاتك. عند تحديد العقد الفردية، يمكنك رؤية "المراحل" التي تمثل التعليمات البرمجية التي تم تنفيذها معاً على نظام المجموعة. تمثل التوقيتات والأعداد التي تراها تلك المجموعات أو المراحل على عكس الخطوات الفردية في تصميمك.

لقطة شاشة تعرض الصفحة الخاصة بتدفق البيانات.

  • عند تحديد المساحة المفتوحة في نافذة المراقبة، تعرض الإحصائيات في الجزء السفلي التوقيت وعدد الصفوف لكل حوض والتحويلات التي أدت إلى بيانات المتلقي لنسب التحويل.

  • عند تحديد التحويلات الفردية، تتلقى ملاحظات إضافية على اللوحة اليمنى التي تعرض إحصائيات القسم، وعدد الأعمدة، والتحرف (مدى التساوي في توزيع البيانات عبر الأقسام)، والتفرطح (كيف أن البيانات هي spiky).

  • يساعدك الفرز حسب وقت المعالجة على تحديد المراحل التي استغرقها تدفق البيانات معظم الوقت.

  • لمعرفة التحولات التي استغرقت داخل كل مرحلة معظم الوقت، قم بالفرز حسب أعلى وقت معالجة.

  • *الصفوف المكتوبة قابلة للفرز أيضا كطريقة لتحديد التدفقات داخل تدفق البيانات التي تكتب معظم البيانات.

  • عند تحديد Sink في عرض العقدة، يمكنك مشاهدة دورة حياة العمود. هناك ثلاث طرق مختلفة تتراكم فيها الأعمدة خلال تدفق البيانات لتستقر في المتلقي. وهي:

    • محسوب: إمكانية استخدام العمود للمعالجة الشرطية أو ضمن تعبير في تدفق البيانات، ولكن لا للهبوط به في المتلقي
    • مشتق: العمود هو عمود جديد قمت بإنشائه في التدفق، أي أنه لم يكن موجودا في المصدر
    • معين: تم إنشاء العمود من المصدر وأنت تقوم بتعيينه إلى حقل متلقي
    • حالة تدفق البيانات: الحالة الحالية لتنفيذك
    • وقت بدء تشغيل نظام المجموعة: مقدار الوقت للحصول على بيئة حساب JIT Spark لتنفيذ تدفق البيانات
    • عدد التحويلات: كم عدد خطوات التحويل التي يتم تنفيذها في التدفق الخاص بك

لقطة شاشة توضح خيار التحديث.

إجمالي وقت معالجة المتلقي مقابل وقت معالجة التحويل

تتضمن كل مرحلة تحويل إجمالي الوقت لهذه المرحلة حتى تكتمل مع إجمالي وقت تنفيذ كل قسم معاً. عند تحديد المتلقي، سترى "وقت معالجة المتلقي". يتضمن هذا الوقت إجمالي وقت التحويل بالإضافة إلى وقت الإدخال/الإخراج المستغرق لكتابة بياناتك إلى المتجر الوجهة. الفرق بين Sink Processing Time ومجموع التحويل هو وقت الإدخال / الإخراج لكتابة البيانات.

يمكنك أيضاً الاطلاع على التوقيت التفصيلي لكل خطوة تحويل قسم إذا فتحت إخراج JSON من نشاط تدفق البيانات في عرض مراقبة خط التدفق. يحتوي JSON على توقيت ملي ثانية لكل قسم، في حين أن عرض مراقبة UX هو توقيت إجمالي للأقسام المضافة معاً:

 {
     "stage": 4,
     "partitionTimes": [
          14353,
          14914,
          14246,
          14912,
          ...
         ]
}

وقت معالجة المتلقي

عند تحديد أيقونة تحويل المتلقي في الخريطة، تعرض لوحة التمرير على اليمين نقطة بيانات إضافية تسمى "وقت المعالجة اللاحق" في الأسفل. هذا هو مقدار الوقت الذي تقضيه في تنفيذ وظيفتك على مجموعة Spark بعد تحميل بياناتك وتحويلها وكتابتها. يمكن أن تتضمن هذه المرة إغلاق تجمعات الاتصال، وإيقاف تشغيل برنامج التشغيل، وحذف الملفات، ودمج الملفات، وما إلى ذلك. عند تنفيذ إجراءات في تدفقك مثل "نقل الملفات" و"الإخراج إلى ملف واحد"، من المحتمل أن ترى زيادة في قيمة وقت المعالجة اللاحقة.

  • كتابة مدة المرحلة: الوقت لكتابة البيانات إلى موقع التدريج لـ Synapse SQL
  • مدة SQL لعملية الجدول: الوقت المستغرق في نقل البيانات من الجداول المؤقتة إلى الجدول المستهدف
  • مدة ما قبل SQL ومدة Post SQL: الوقت المستغرق في تشغيل أوامر SQL السابقة/اللاحقة
  • مدة الأوامر المسبقة ومدة أوامر النشر: الوقت المستغرق في تشغيل أي عمليات ما قبل/لاحقة لمصدر/أحواض قائمة على الملفات. على سبيل المثال، نقل الملفات أو حذفها بعد المعالجة.
  • مدة الدمج: الوقت المستغرق في دمج الملف، يتم استخدام ملفات الدمج للأحواض المستندة إلى الملفات عند الكتابة إلى ملف واحد أو عند استخدام "اسم الملف كبيانات عمود". إذا تم قضاء وقت كبير في هذا القياس، فيجب تجنب استخدام هذه الخيارات.
  • وقت المرحلة: إجمالي الوقت المستغرق داخل Spark لإكمال العملية كمرحلة.
  • ثابت التدريج المؤقت: اسم الجدول المؤقت الذي تستخدمه تدفقات البيانات لمرحلة البيانات في قاعدة البيانات.

صفوف الخطأ

سينعكس تمكين معالجة صف الخطأ في مصدر تدفق البيانات في إخراج المراقبة. عند تعيين المتلقي إلى "الإبلاغ عن النجاح عند الخطأ"، يظهر إخراج المراقبة عدد صفوف النجاح والفشل عند تحديد عقدة مراقبة المتلقي.

لقطة الشاشة تعرض صفوف الخطأ.

عند تحديد "report failure on error"، يتم عرض نفس الإخراج فقط في نص إخراج مراقبة النشاط. وذلك لأن نشاط تدفق البيانات يرجع فشل التنفيذ وعرض المراقبة التفصيلية غير متوفر.

لقطة الشاشة تعرض صفوف الخطأ في النشاط.

أيقونات المراقبة

يعني هذا الأيقونة أنه تم تخزين بيانات التحويل بالفعل مؤقتاً على نظام المجموعة، لذلك خذ التوقيت ومسار تنفيذ ذلك في الاعتبار:

لقطة شاشة توضح أيقونة القرص.

يمكنك أيضاً رؤية أيقونات الدوائر الخضراء في التحويل. إنها تمثل عدد جهات التلقي التي تتدفق إليها البيانات.