مراقبة نشاط النسخ

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

توضح هذه المقالة كيفية مراقبة عملية تنفيذ نشاط النسخ في مسارات Azure Data Factory، وSynapse. تعتمد هذه المقالة على مقالة نظرة عامة على نشاط النسخ التي تقدم نظرة عامة على نشاط النسخ. يمكنك أيضاً مراقبة أنشطة النسخ التي تم إنشاؤها باستخدام أداة نسخ البيانات وكذلك أنشطة الحذف، باستخدام نفس النهج.

المراقبة بصرياً

بمجرد إنشاء مسار ونشره، يمكنك إقرانه بمشغل أو بدء تشغيل مخصص يدوياً. يمكنك مراقبة كل المسارات التي تعمل لديك بصورة أصلية في تجربة المستخدم. تعرف على المراقبة بشكل عام من خلال مراقبة Azure Data Factory، ومسارات Synapse مرئياً.

لمراقبة تشغيل نشاط النسخ، انتقل إلى Data Factory Studio، أو واجهة مستخدم Azure Synapse Studio، لمثيل الخدمات. في علامة التبويب مراقبة، يمكنك رؤية قائمة من المسارات التي تعمل، انقر فوق الارتباط اسم المسار، للوصول إلى قائمة لعمليات تشغيل الأنشطة في عملية تشغيل المسار.

في هذا المستوى، يمكنك رؤية ارتباطات لنسخ إدخال النشاط، والإخراج، والأخطاء (إذا فشل تشغيل نشاط النسخ)، بالإضافة إلى إحصاءات مثل المدة/الحالة. سيؤدي النقر فوق الزر تفاصيل (النظارات) بجوار اسم نشاط النسخ، إلى تزويدك بتفاصيل عميقة عن عملية تنفيذ نشاط النسخ.

مراقبة تشغيل نشاط النسخ

في طريقة العرض الرسومية هذه، تعرض لك الخدمة معلومات تنفيذ نشاط النسخ، بما في ذلك حجم قراءة/كتابة البيانات، وعدد ملفات/صفوف البيانات المنسوخة من المصدر إلى المتلقي، ومعدل النقل، والتكوينات المطبقة على سيناريو النسخ، والخطوات التي يمر بها نشاط النسخ مع المدد والتفاصيل المقابلة، والمزيد. راجع هذا الجدول على كل مقياس ممكن، ووصفه التفصيلي.

في بعض السيناريوهات، عند تشغيل نشاط Copy، سترى "نصائح ضبط الأداء" أعلى عرض مراقبة نشاط النسخ كما هو موضح في المثال. تخبرك النصائح عن الازدحام الذي حددته الخدمة، لتشغيل نسخة محددة، إلى جانب اقتراح حول ما يجب تغييره لتحسين معدل نقل النسخ. تعرف على المزيد حول نصائح ضبط الأداء التلقائي.

إن تفاصيل عملية التنفيذ في الأسفل، ومدتها تصف الخطوات الرئيسية التي يمر بها نشاط النسخ، مما يُعد مفيداً بشكلٍ خاص لاستكشاف أخطاء أداء النسخ وإصلاحها. ازدحام تشغيل النسخ هو صاحب أطول مدة. راجع استكشاف أخطاء أداء نشاط النسخ وإصلاحها لمعرفة ما تمثله كل مرحلة، والتوجيه التفصيلي لاستكشاف الأخطاء وإصلاحها.

مثال: النسخ من Amazon S3 إلى Azure Data Lake Storage Gen2

تفاصيل تشغيل مراقبة نشاط النسخ

المراقبة برمجياً

إن نسخ تفاصيل عملية تنفيذ نشاط النسخ، وخصائص الأداء، يتم إرجاعها أيضاً في قسم إخراج>نتيجة تشغيل نشاط النسخ، والذي يُستخدم لعرض مراقبة واجهة المستخدم. فيما يلي قائمة كاملة من الخصائص التي قد يتم إرجاعها. لن ترَ إلا الخصائص التي تنطبق على سيناريو النسخ. للحصول على معلومات حول كيفية مراقبة نشاط يعمل برمجياً بشكل عام، راجع مراقبة Azure Data Factory أو مسار Synapse برمجياً.

اسم الخاصية ‏‏الوصف وحدة في الإخراج
dataRead الكمية الفعلية للبيانات المقروءة من المصدر. قيمة Int64، بوحدة القياس بايت
dataWritten الإدخال الفعلي للبيانات المكتوبة/المثبتة إلى المتلقي. قد يختلف الحجم عن حجم dataRead، حيث يرتبط بطريقة التخزين الخاصة بكل مخزن من مخازن البيانات. قيمة Int64، بوحدة القياس بايت
filesRead عدد الملفات المقروءة من المصدر المستند إلى الملف. قيمة Int64 (بدون وحدة)
filesWritten عدد الملفات المكتوبة/المثبتة إلى المتلقي المستند إلى ملف. قيمة Int64 (بدون وحدة)
filesSkipped عدد الملفات التي تم تخطيها من المصدر المستند إلى الملف. قيمة Int64 (بدون وحدة)
dataConsistencyVerification تفاصيل التحقق من اتساق البيانات، حيث يمكنك معرفة ما إذا تم التحقق من صحة البيانات المنسوخة، لتكون متسقة بين المصدر والمخزن الوجهة. تعرف على المزيد من هذه المقالة. صفيف
sourcePeakConnections ذروة عدد الاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات المصدر، أثناء تشغيل نشاط النسخ. قيمة Int64 (بدون وحدة)
sinkPeakConnections ذروة عدد الاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات المتلقي، أثناء تشغيل نشاط النسخ. قيمة Int64 (بدون وحدة)
rowsRead عدد الصفوف المقروءة من المصدر. لا ينطبق هذا القياس عند نسخ الملفات كما هي بدون تحليلها، على سبيل المثال، عندما تكون مجموعات البيانات المصدر، والمتلقي من نوع التنسيق الثنائي، أو نوع تنسيق آخر بإعدادات متطابقة. قيمة Int64 (بدون وحدة)
rowsCopied عدد الصفوف المنسوخة إلى المتلقي. لا ينطبق هذا القياس عند نسخ الملفات كما هي بدون تحليلها، على سبيل المثال، عندما تكون مجموعات البيانات المصدر، والمتلقي من نوع التنسيق الثنائي، أو نوع تنسيق آخر بإعدادات متطابقة. قيمة Int64 (بدون وحدة)
rowsSkipped عدد الصفوف غير المتوافقة التي تم تخطيها. يمكنك تمكين الصفوف غير المتوافقة ليتم تخطيها عن طريق تعيين enableSkipIncompatibleRow إلى القيمة true (صواب). قيمة Int64 (بدون وحدة)
copyDuration مدة تشغيل النسخة. قيمة Int32، بالثواني
معدل النقل معدل نقل البيانات، محسوباً وفقاً لـ dataRead مقسوماً على copyDuration. رقم الفاصلة العائمة، بوحدة القياس كيلوبت/ثانية (KBps)
sourcePeakConnections ذروة عدد الاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات المصدر، أثناء تشغيل نشاط النسخ. قيمة Int32 (بدون وحدة)
sinkPeakConnections ذروة عدد الاتصالات المتزامنة التي تم إنشاؤها إلى مخزن البيانات المتلقي، أثناء تشغيل نشاط النسخ. قيمة Int32 (بدون وحدة)
sqlDwPolyBase ما إذا كان يتم استخدام PolyBase عند نسخ البيانات إلى تحليلات Azure Synapse. Boolean
redshiftUnload ما إذا كان UNLOAD يُستخدم عند نسخ البيانات من Redshift. Boolean
hdfsDistcp ما إذا كان يتم استخدام DistCp، عند نسخ البيانات من HDFS. Boolean
effectiveIntegrationRuntime وقت تشغيل التكامل (IR) أو أوقات التشغيل المستخدمة لتشغيل النشاط، بالتنسيق <IR name> (<region if it's Azure IR>). النص (سلسلة)
usedDataIntegrationUnits وحدات تكامل البيانات الفعالة أثناء النسخ. قيمة Int32
usedParallelCopies parallelCopies الفعالة أثناء النسخ. قيمة Int32
logPath المسار إلى سجل الجلسة للبيانات التي تم تخطيها في مخزن البيانات الثنائية الكبيرة. راجع التسامح مع الخطأ. النص (سلسلة)
executionDetails مزيد من التفاصيل حول المراحل التي يمر بها نشاط النسخ، والخطوات، والفترات الزمنية، والتكوينات المقابلة، وما إلى ذلك. لا ننصحك بتوزيع هذا القسم، نظراً لأنه قد يتغير. للفهم بصورة أفضل لمعرفة كيف يساعدك على الفهم، واستكشاف أخطاء أداء النسخ وإصلاحها، راجع قسم المراقبة بصرياً. صفيف
perfRecommendation نسخ تلميحات ضبط الأداء. راجع تلميحات ضبط الأداء، للحصول على التفاصيل. صفيف
billingReference استهلاك الفوترة لتشغيل معين. تعرف على المزيد من خلال مراقبة الاستهلاك على مستوى تشغيل النشاط. ‏‏الكائن
durationInQueue مدة الانتظار بالثانية قبل بدء تنفيذ نشاط النسخ. ‏‏الكائن

مثال:

"output": {
    "dataRead": 1180089300500,
    "dataWritten": 1180089300500,
    "filesRead": 110,
    "filesWritten": 110,
    "filesSkipped": 0,
    "sourcePeakConnections": 640,
    "sinkPeakConnections": 1024,
    "copyDuration": 388,
    "throughput": 2970183,
    "errors": [],
    "effectiveIntegrationRuntime": "DefaultIntegrationRuntime (East US)",
    "usedDataIntegrationUnits": 128,
    "billingReference": "{\"activityType\":\"DataMovement\",\"billableDuration\":[{\"Managed\":11.733333333333336}]}",
    "usedParallelCopies": 64,
    "dataConsistencyVerification": 
    { 
        "VerificationResult": "Verified", 
        "InconsistentData": "None" 
    },
    "executionDetails": [
        {
            "source": {
                "type": "AmazonS3"
            },
            "sink": {
                "type": "AzureBlobFS",
                "region": "East US",
                "throttlingErrors": 6
            },
            "status": "Succeeded",
            "start": "2020-03-04T02:13:25.1454206Z",
            "duration": 388,
            "usedDataIntegrationUnits": 128,
            "usedParallelCopies": 64,
            "profile": {
                "queue": {
                    "status": "Completed",
                    "duration": 2
                },
                "transfer": {
                    "status": "Completed",
                    "duration": 386,
                    "details": {
                        "listingSource": {
                            "type": "AmazonS3",
                            "workingDuration": 0
                        },
                        "readingFromSource": {
                            "type": "AmazonS3",
                            "workingDuration": 301
                        },
                        "writingToSink": {
                            "type": "AzureBlobFS",
                            "workingDuration": 335
                        }
                    }
                }
            },
            "detailedDurations": {
                "queuingDuration": 2,
                "transferDuration": 386
            }
        }
    ],
    "perfRecommendation": [
        {
            "Tip": "6 write operations were throttled by the sink data store. To achieve better performance, you are suggested to check and increase the allowed request rate for Azure Data Lake Storage Gen2, or reduce the number of concurrent copy runs and other data access, or reduce the DIU or parallel copy.",
            "ReferUrl": "https://go.microsoft.com/fwlink/?linkid=2102534 ",
            "RuleName": "ReduceThrottlingErrorPerfRecommendationRule"
        }
    ],
    "durationInQueue": {
        "integrationRuntimeQueue": 0
    }
}

راجع مقالات نشاط النسخ الأخرى:

- نظرة عامة على نشاط Copy

- أداء نشاط Copy