دليل أداء نشاط النسخ وقابلية التوسع

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

في بعض الأحيان، تريد إجراء ترحيل بيانات واسع النطاق من مستودع البيانات أو مستودع بيانات المؤسسة (EDW) إلى Azure. في أحيان أخرى تريد استيعاب كميات كبيرة من البيانات، من مصادر مختلفة إلى Azure، لتحليل البيانات الضخمة. في كل حالة، من المهم جداً تحقيق الأداء الأمثل وقابلية التوسع.

توفر تدفقات Azure Data Factory و Azure Synapse Analytics آلية لاستيعاب البيانات، مع المزايا التالية:

  • معالجة كميات كبيرة من البيانات
  • أداء عالي
  • فعال من حيث التكلفة

هذه المزايا ملائمة تماماً لمهندسي البيانات الذين يرغبون في بناء مسارات استيعاب بيانات قابلة للتوسيع والتي هي ذات أداء عالٍ.

بعد قراءة هذه المقالة، سوف تكون قادراً على الإجابة على الأسئلة التالية:

  • ما هو مستوى الأداء وقابلية التوسع الذي يمكنني تحقيقه باستخدام نشاط النسخ لسيناريوهات ترحيل البيانات واستيعاب البيانات؟
  • ما هي الخطوات التي يجب أن أتخذها لضبط أداء نشاط النسخ؟
  • ما هي تحسينات الأداء التي يمكنني الاستفادة منها لتشغيل نشاط نسخة واحدة؟
  • ما هي العوامل الخارجية الأخرى التي يجب مراعاتها عند تحسين أداء النسخ؟

إشعار

إذا لم تكن على دراية بنشاط النسخ بشكل عام، فراجع نظرة عامة على نشاط النسخ قبل قراءة هذه المقالة.

نسخ الأداء وقابلية التوسع القابلة للتحقيق باستخدام Azure Data Factory ومسارات Synapse

توفر Azure Data Factory ومسارات Synapse بنية بلا خادم تسمح بالتوازي على مستويات مختلفة.

تسمح لك هذه البنية بتطوير مسارات تزيد من معدل نقل حركة البيانات للبيئة الخاصة بك. تستخدم هذه التدفقات بشكل كامل الموارد التالية:

  • عرض النطاق الترددي للشبكة بين مخازن البيانات المصدر والوجهة
  • عمليات الإدخال/الإخراج الخاصة بمصدر أو مخزن بيانات الوجهة في الثانية (IOPS) وعرض النطاق الترددي

ويعني هذا الاستخدام الكامل أنه يمكنك تقدير إجمالي الإنتاجية عن طريق قياس الحد الأدنى من معدل النقل المتاح بالموارد التالية:

  • مخزن بيانات المصدر
  • مخزن بيانات الوجهة
  • عرض النطاق الترددي للشبكة بين مخازن بيانات المصدر والوجهة

يوضح الجدول أدناه حساب مدة حركة البيانات. يتم حساب المدة في كل خلية استناداً إلى شبكة معينة وعرض نطاق ترددي لتخزين البيانات وحجم حمولة بيانات معطاة.

إشعار

المدة الموضحة أدناه تهدف إلى تمثيل الأداء القابل للتحقيق في حل تكامل البيانات من طرف إلى طرف باستخدام واحدة أو أكثر من تقنيات تحسين الأداء الموضحةفي ميزات تحسين أداء النسخ، بما في ذلك استخدام ForEach لتقسيم وإنتاج أنشطة النسخ المتزامنة المتعددة. نوصي باتباع الخطوات الموضحة في خطوات ضبط الأداء لتحسين أداء النسخ لمجموعة البيانات وتكوين النظام المحددين. يجب استخدام الأرقام التي تم الحصول عليها في اختبارات ضبط الأداء لتخطيط نشر الإنتاج وتخطيط السعة وإسقاط الفواتير.

 

حجم البيانات /
bandwidth
50 ميغابت لكل ثانية 100 ميغابت في الثانية 500 ميغابت لكل ثانية يبلغ 1 جيجابت في الثانية 5 غيغابت في الثانية 10 جيجابت في الثانية 50 جيجابت في الثانية
1 غيغابايت 2.7 دقيقة 1.4 دقيقة 0.3 دقيقة 0.1 دقيقة 0.03 دقيقة 0.01 دقيقة 0.0 دقيقة
10 غيغابايت 27.3 دقيقة 13.7 دقيقة 2.7 دقيقة 1.3 دقيقة 0.3 دقيقة 0.1 دقيقة 0.03 دقيقة
100 غيغابايت 4.6 ساعة 2.3 ساعة 0.5 ساعة 0.2 ساعة 0.05 ساعة 0.02 ساعة 0.0 ساعة
1 تيرابايت 46.6 ساعة 23.3 ساعة 4.7 ساعة 2.3 ساعة 0.5 ساعة 0.2 ساعة 0.05 ساعة
10 تيرابايت 19.4 يوم 9.7 يوم 1.9 يوم 0.9 يوم 0.2 يوم 0.1 يوم 0.02 يوم
100 تيرابايت 194.2 يوم 97.1 يوم 19.4 يوم 9.7 يوم 1.9 يوم يوم واحد 0.2 يوم
1 PB 64.7 مو 32.4 مو 6.5 مو 3.2 مو 0.6 مو 0.3 مو 0.06 مو
10 PB 647.3 مو 323.6 مو 64.7 مو 31.6 مو 6.5 مو 3.2 مو 0.6 مو

النسخ قابل للتوسيع على مستويات مختلفة:

كيفية نسخ المقاييس

  • يمكن أن يبدأ تدفق التحكم في أنشطة نسخ متعددة بالتوازي، على سبيل المثال باستخدام لكل حلقة.

  • يمكن لنشاط النسخة الواحدة الاستفادة من موارد الحوسبة القابلة للتحجيم.

    • عند استخدام وقت تشغيل تكامل Azure (IR)، يمكنك تحديد ما يصل إلى 256 وحدة تكامل بيانات (DIUs) لكل نشاط نسخ، بدون خادم.
    • عند استخدام وقت تشغيل التكامل المستضاف ذاتيا، يمكنك اتباع أي من الطرق التالية:
      • قم بتحجيم الجهاز يدوياً.
      • قم بالتحجيم إلى أجهزة متعددة(حتى 4 عقد)،وسيقسم نشاط النسخة الواحدة مجموعة الملفات الخاصة به عبر جميع العقد.
  • يقوم نشاط نسخة واحدة من مخزن البيانات بالقراءة والكتابة باستخدام مؤشرات ترابط متعددة بالتوازي.

خطوات ضبط الأداء

اتخاذ الخطوات التالية لضبط أداء الخدمة الخاصة بك مع نشاط النسخ:

  1. اختر مجموعة بيانات اختبار وقم بإنشاء خط أساسي.

    أثناء التطوير، اختبر مسارك باستخدام نشاط النسخ مقابل نموذج بيانات تمثيلي. يجب أن تمثل مجموعة البيانات التي تختارها أنماط البيانات النموذجية مع السمات التالية:

    • بنية المجلد
    • نمط الملف
    • مخطط البيانات

    ويجب أن تكون مجموعة البيانات الخاصة بك كبيرة بما يكفي لتقييم أداء النسخ. يستغرق الحجم الجيد 10 دقائق على الأقل لإكمال نشاط النسخ. اجمع تفاصيل التنفيذ وخصائص الأداء بعد رصد نشاط النسخ.

  2. كيفية تحقيق أقصى قدر من الأداء لنشاط نسخة واحدة:

    نوصي أولاً بتكبير الأداء باستخدام نشاط نسخة واحدة.

    • إذا كان يتم تنفيذ نشاط النسخة على وقت تشغيل تكامل Azure:

      ابدأ بالقيم الافتراضية لوحدات تكامل البيانات (DIU) وإعدادات النسخ المتوازية.

    • إذا كان يتم تنفيذ نشاط النسخة على وقت تشغيل تكامل مستضاف ذاتياً:

      نوصي باستخدام جهاز مخصص لاستضافة وقت تشغيل التكامل. يجب أن يكون الجهاز منفصلاً عن الخادم الذي يستضيف مخزن البيانات. ابدأ بالقيم الافتراضية لإعداد النسخ المتوازي واستخدام عقدة واحدة لوقت تشغيل التكامل المستضاف ذاتياً.

    قم بإجراء اختبار أداء تشغيل. قم بتدوين ملاحظات عن الأداء الذي تم تحقيقه. قم بتضمين القيم الفعلية المستخدمة، مثل وحدات DIUs والنسخ المتوازية. راجع مراقبة نشاط النسخ حول كيفية تجميع نتائج التشغيل وإعدادات الأداء المستخدمة. تعرف على كيفية استكشاف أخطاء أداء نشاط النسخ وإصلاحها لتحديد الازدحام وحله.

    كرر إجراء مجموعة اختبارات أداء إضافي باتباع توجيه استكشاف الأخطاء وإصلاحها. بمجرد تشغيل نشاط النسخة الواحدة لا يمكن تحقيق سرعة نقل أفضل، خذ بعين الاعتبار ما إذا كان يجب زيادة معدل النقل الإجمالي عن طريق تشغيل نسخ متعددة في وقت واحد. تتم مناقشة هذا الخيار في الرمز النقطي المرقم التالي.

  3. كيفية تكبير معدل النقل الإجمالي عن طريق تشغيل نسخ متعددة في نفس الوقت:

    الآن قمت بتكبير أداء نشاط نسخة واحدة. إذا لم تكن قد حققت الحد الأعلى من معدل النقل لبيئتك، فيمكنك تشغيل أنشطة نسخ متعددة بالتوازي. يمكنك التشغيل بالتوازي باستخدام بنيات تدفق التحكم. واحد من هذه البنية هو لكل حلقة. لمزيد من المعلومات، راجع المقالات التالية حول قوالب الحل:

  4. قم بتوسيع التكوين إلى مجموعة البيانات بأكملها الخاصة بك.

    عندما تكون راضياً عن نتائج التنفيذ والأداء، يمكنك توسيع التعريف والمسارات لتغطية مجموعة البيانات بأكملها الخاصة بك.

استكشاف أخطاء أداء نشاط النسخ وإصلاحها

اتبع خطوات ضبط الأداء لتخطيط وإجراء اختبار الأداء للسيناريو الخاص بك. وتعلم كيفية استكشاف أخطاء مشكلة أداء تشغيل كل نشاط نسخ من استكشاف أخطاء أداء نشاط النسخ.

نسخ ميزات تحسين الأداء

توفر الخدمة ميزات تحسين الأداء التالية:

وحدات تكامل البيانات

وحدة تكامل البيانات (DIU) هو مقياس يمثل قوة وحدة واحدة في Azure Data Factory ومسارات Synapse. الطاقة هي مزيج من CPU والذاكرة وتخصيص موارد الشبكة. DIU ينطبق فقط على وقت تشغيل تكامل Azure. لا ينطبق DIU على وقت تشغيل التكامل المستضاف ذاتياً. تعرَّف على المزيد من هنا.

قابلية توسع وقت تشغيل التكامل المستضاف ذاتياً

قد ترغب في استضافة زيادة حجم العمل المتزامن. أو قد ترغب في تحقيق أداء أعلى في مستوى حمل العمل الحالي. يمكنك تحسين مقياس المعالجة بواسطة الطرق التالية:

  • يمكنك زيادة وقت تشغيل التكامل المستضاف ذاتياً بزيادة عدد المهام المتزامنة التي يمكن تشغيلها على عقدة.
    يمكن الزيادة فقط إذا كان المعالج وذاكرة العقدة يتم استخدامها بشكل أقل من استخدامها بالكامل.
  • يمكنك زيادة وقت تشغيل التكامل المستضاف ذاتياً، عن طريق إضافة المزيد من العقد (الأجهزة).

لمزيد من المعلومات، راجع:

نسخة متوازية

يمكنك تعيين خاصية parallelCopies للإشارة إلى التوازي الذي تريد أن يستخدمه نشاط النسخة. فكر في هذه الخاصية كأقصى عدد من مؤشرات الترابط ضمن نشاط النسخ. مؤشرات الترابط تعمل بالتوازي. مؤشرات الترابط إما القراءة من المصدر الخاص بك أو الكتابة إلى مخازن بيانات المتلقي الخاص بك. اعرف المزيد.

نسخة مرحلية

يمكن لعملية نسخ البيانات إرسال البيانات مباشرة إلى مخزن بيانات المتلقي. بدلاً من ذلك، يمكنك اختيار استخدام تخزين Blob كمخزن مرحلة مؤقتة. اعرف المزيد.

راجع مقالات نشاط النسخ الأخرى: