تعيين وضع تصحيح أخطاء تدفق البيانات

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

نظرة عامة

يتيح لك وضع تصحيح أخطاء تدفق البيانات في Azure Data Factory وSynapse Analytics مشاهدة تحويل شكل البيانات بشكل تفاعلي أثناء إنشاء تدفقات البيانات وتصحيحها. يمكن استخدام جلسة تصحيح الأخطاء في جلسات عمل تصميم تدفق البيانات وأثناء تنفيذ تتبع أخطاء البنية الأساسية لبرنامج ربط العمليات التجارية لتدفقات البيانات. لتشغيل وضع تتبع الأخطاء، استخدم الزر Data Flow Debug في الشريط العلوي من لوحة تدفق البيانات أو لوحة المسار عندما يكون لديك أنشطة تدفق البيانات.

لقطة شاشة توضح مكان شريط تمرير تتبع الأخطاء 1

لقطة شاشة توضح مكان شريط تمرير تتبع الأخطاء 2

بمجرد تشغيل شريط التمرير، ستتم مطالبتك بتحديد تكوين وقت تشغيل التكامل الذي ترغب في استخدامه. إذا تم اختيار AutoResolveIntegrationRuntime، فسيتم إنشاء مجموعة مكونة من ثماني ذاكرات أساسية من الحساب العام مع وقت افتراضي للبث يبلغ 60 دقيقة. إذا كنت ترغب في السماح بمزيد من وقت الخمول للفريق قبل انتهاء مهلة الجلسة، فيمكنك اختيار إعداد وقت بث أعلى. لمزيد من المعلومات حول أوقات تشغيل تكامل تدفق البيانات، راجع أداء وقت تشغيل التكامل.

تتبع أخطاء تحديد وقت تشغيل التكامل

عندما يكون وضع التصحيح قيد التشغيل، ستقوم ببناء تدفق البيانات بشكل تفاعلي باستخدام مجموعة Spark نشطة. يتم إغلاق جلسة العمل بمجرد إيقاف تشغيل تتبع الأخطاء. يجب أن تكون على دراية بالرسوم التي يتكبدها مصنع البيانات بالساعة أثناء وقت تشغيل جلسة تصحيح الأخطاء.

في معظم الحالات، من الممارسات الجيدة إنشاء تدفقات البيانات في وضع التصحيح بحيث يمكنك التحقق من صحة منطق عملك وعرض تحويلات البيانات قبل نشر عملك. استخدم الزر "تصحيح الأخطاء" في لوحة المسارات لاختبار تدفق البيانات في المسار.

إشعار

كل جلسة تصحيح أخطاء يبدأها المستخدم من واجهة مستخدم المتصفح الخاصة به هي جلسة جديدة مع مجموعة Spark الخاصة بها. يمكنك استخدام طريقة عرض المراقبة لجلسات تصحيح الأخطاء الموضحة في الصور السابقة لعرض جلسات تصحيح الأخطاء وإدارتها. تتم محاسبتك على كل ساعة يتم تنفيذ كل جلسة تصحيح فيها بما في ذلك وقت البث.

يتحدث مقطع الفيديو هذا عن التلميحات والنصائح والممارسات الجيدة لوضع تصحيح تدفق البيانات.

حالة المجموعة

يتحول مؤشر حالة المجموعة الموجود أعلى سطح التصميم إلى اللون الأخضر عندما تكون المجموعة جاهزة للتصحيح. إذا كانت مجموعتك دافئة بالفعل، فسيظهر المؤشر الأخضر على الفور تقريبا. إذا لم يكن نظام المجموعة قيد التشغيل بالفعل عند إدخال وضع التصحيح، فإن نظام مجموعة Spark ينفذ تمهيدا باردا. يدور المؤشر حتى تصبح البيئة جاهزة لتصحيح الأخطاء التفاعلي.

عند الانتهاء من تصحيح الأخطاء، قم بإيقاف تشغيل تصحيح الأخطاء بحيث يمكن إنهاء نظام مجموعة Spark ولن تتم فوترتك بعد الآن لنشاط التصحيح.

إعدادات تتبع الأخطاء

بمجرد تشغيل وضع التصحيح، يمكنك تحرير كيفية قيام تدفق البيانات بمعاينة البيانات. يمكن تعديل إعدادات التصحيح بالنقر على "إعدادات التصحيح" على شريط أدوات لوحة تدفق البيانات. يمكنك تحديد حد الصف أو مصدر الملف لاستخدامه لكل تحويل من تحويلات المصدر الخاصة بك هنا. حدود الصفوف في هذا الإعداد مخصصة فقط لجلسة تصحيح الأخطاء الحالية. يمكنك أيضًا تحديد الخدمة المرحلية المرتبطة لاستخدامها لمصدر Azure Synapse Analytics.

إعدادات تتبع الأخطاء

إذا كانت لديك معلمات في تدفق البيانات أو أي من مجموعات البيانات المشار إليها، يمكنك تحديد القيم التي يجب استخدامها أثناء تصحيح الأخطاء عن طريق تحديد علامة التبويب المعلمات .

استخدم إعدادات أخذ العينات هنا للإشارة إلى نماذج الملفات أو نماذج جداول البيانات بحيث لا تضطر إلى تغيير مجموعات البيانات المصدر. باستخدام نموذج ملف أو جدول هنا، يمكنك الاحتفاظ بالمنطق وإعدادات الخصائص نفسها في تدفق البيانات أثناء الاختبار مقابل مجموعة فرعية من البيانات.

معلمات إعدادات التصحيح

إن وقت تشغيل التكامل الافتراضي المستخدم لوضع التصحيح في تدفقات البيانات هو عقدة عامل فردية صغيرة رباعية الذاكرة مع عقدة تشغيل فردية رباعية الذاكرة. يعمل هذا بشكل جيد مع عينات أصغر من البيانات عند اختبار منطق تدفق البيانات. إذا قمت بتوسيع حدود الصفوف في إعدادات تتبع الأخطاء أثناء معاينة البيانات أو قمت بتعيين عدد أعلى من الصفوف التي تم أخذ عينات منها في المصدر أثناء تتبع أخطاء المسار، فقد ترغب في التفكير في تعيين بيئة حساب أكبر في وقت تشغيل تكامل Azure جديد. ثم يمكنك إعادة تشغيل جلسة التصحيح باستخدام بيئة الحوسبة الأكبر.

معاينة البيانات

مع تشغيل التصحيح، تضيء علامة التبويب معاينة البيانات على اللوحة السفلية. بدون تشغيل وضع التصحيح، يعرض لك تدفق البيانات بيانات التعريف الحالية فقط داخل وخارج كل تحويل من التحويلات في علامة التبويب فحص. ستقوم معاينة البيانات بالاستعلام عن عدد الصفوف التي قمت بتعيينها كحد أقصى في إعدادات تتبع الأخطاء. حدد تحديث لتحديث معاينة البيانات استنادا إلى التحويلات الحالية. إذا تغيرت بيانات المصدر الخاصة بك، فحدد Refresh > Refetch من المصدر.

معاينة البيانات

يمكنك فرز الأعمدة في معاينة البيانات وإعادة ترتيب الأعمدة باستخدام السحب والإفلات. بالإضافة إلى ذلك، يوجد زر تصدير أعلى لوحة معاينة البيانات يمكنك استخدامها لتصدير بيانات المعاينة إلى ملف CSV لاستكشاف البيانات دون اتصال. يمكنك استخدام هذه الميزة لتصدير ما يصل إلى 1000 صف من بيانات المعاينة.

إشعار

تحدد مصادر الملفات الصفوف التي تراها فقط، وليس الصفوف التي تتم قراءتها. بالنسبة لمجموعات البيانات الكبيرة جدًا، يوصى بأخذ جزء صغير من هذا الملف واستخدامه للاختبار. يمكنك تحديد ملف مؤقت في إعدادات التصحيح لكل مصدر يمثل نوع مجموعة بيانات الملف.

عند التشغيل في وضع تتبع الأخطاء في تدفق البيانات، لن تتم كتابة بياناتك إلى تحويل المتلقي. تهدف جلسة التصحيح إلى أن تكون بمثابة أداة اختبار لتحولاتك. المتلقيات غير مطلوبة أثناء تتبع الأخطاء ويتم تجاهلها في تدفق البيانات. إذا كنت ترغب في اختبار كتابة البيانات في حوضك، فقم بتنفيذ تدفق البيانات من المسار واستخدم تنفيذ التصحيح من المسار.

معاينة البيانات هي لقطة لبياناتك المحولة باستخدام حدود الصفوف وأخذ عينات البيانات من إطارات البيانات في ذاكرة Spark. لذلك، لا يتم استخدام برامج تشغيل المتلقي أو اختبارها في هذا السيناريو.

إشعار

تعرض معاينة البيانات الوقت وفقا لإعداد الإعدادات المحلية للمستعرض.

اختبار شروط الانضمام

عند اختبار الوحدة لعمليات تحويلات الصلات أو الموجودة أو البحث، تأكد من استخدام مجموعة صغيرة من البيانات المعروفة للاختبار الخاص بك. يمكنك استخدام الخيار Debug الإعدادات الموضح سابقا لتعيين ملف مؤقت لاستخدامه في الاختبار. هذا مطلوب لأنه عند تقييد الصفوف أو أخذ العينات من مجموعة بيانات كبيرة، لا يمكنك التنبؤ بالصفوف والمفاتيح التي تتم قراءتها في التدفق للاختبار. النتيجة غير محددة، ما يعني أن شروط الانضمام قد تفشل.

إجراءات سريعة

بمجرد أن ترى معاينة البيانات، يمكنك إنشاء تحويل سريع للمادة المطبوعة أو الإزالة أو إجراء تعديل على عمود. حدد رأس العمود ثم حدد أحد الخيارات من شريط أدوات معاينة البيانات.

تظهر لقطة الشاشة شريط أدوات معاينة البيانات مع خيارات: Typecast و Modify و Statistics و Remove.

بمجرد تحديد تعديل، سيتم تحديث معاينة البيانات على الفور. حدد تأكيد في الزاوية العلوية اليسرى لإنشاء تحويل جديد.

تظهر لقطة الشاشة زر تأكيد.

يقوم Typecast و Modify بإنشاء تحويل عمود مشتق وإزالة بإنشاء تحويل تحديد.

تظهر لقطة الشاشة الإعدادات العمود المشتق.

إشعار

إذا قمت بتحرير تدفق البيانات، فستحتاج إلى إعادة جلب معاينة البيانات قبل إضافة تحويل سريع.

جمع معلومات البيانات

يؤدي تحديد عمود في علامة تبويب معاينة البيانات والنقر فوق إحصائيات في شريط أدوات معاينة البيانات إلى ظهور مخطط في أقصى يسار شبكة البيانات مع إحصائيات مفصلة حول كل حقل. تقدم الخدمة قاعدة تحديد استنادا إلى أخذ عينات البيانات من أي نوع من المخططات لعرضها. الحقول ذات العلاقة الأساسية العالية افتراضيا إلى مخططات NULL/NOT NULL بينما تعرض البيانات الفئوية والرقوية ذات العلاقة الأساسية المنخفضة المخططات الشريطية التي تعرض تكرار قيمة البيانات. كما ترى الحد الأقصى/الطول الأقصى لحقول السلسلة، والقيم الدقيقة/القصوى في الحقول الرقمية، والتطوير القياسي، والقيم المئوية، والأعداد، والمتوسط.

إحصائيات العمود