إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
ينطبق على:
Azure Data Factory
Azure Synapse Analytics
Tip
Data Factory في Microsoft Fabric هو الجيل القادم من Azure Data Factory، مع بنية أبسط، وذكاء اصطناعي مدمج، وميزات جديدة. إذا كنت جديدا في تكامل البيانات، ابدأ مع Fabric Data Factory. يمكن لأعباء عمل ADF الحالية الترقية إلى Fabric للوصول إلى قدرات جديدة في علوم البيانات، والتحليلات اللحظية، والتقارير.
أحيانا ترغب في إجراء ترحيل بيانات واسع النطاق من بحيرة البيانات أو مستودع بيانات المؤسسات (EDW) إلى Azure. وأحيانا أخرى تريد استيعاب كميات كبيرة من البيانات من مصادر مختلفة إلى Azure لتحليلات البيانات الضخمة. في كل حالة، من الأهمية بمكان تحقيق الأداء الأمثل وقابلية التوسع.
توفر خطوط أنابيب Azure Data Factory و Azure Synapse Analytics آلية لاستيعاب البيانات، مع المزايا التالية:
- معالجة كميات كبيرة من البيانات
- أداء عالي
- هل هو فعال من حيث التكلفة
هذه المزايا ملائمة تماماً لمهندسي البيانات الذين يرغبون في بناء مسارات استيعاب بيانات قابلة للتوسيع والتي هي ذات أداء عالٍ.
بعد قراءة هذا المقال، ستتمكن من الإجابة على الأسئلة التالية:
- ما هو مستوى الأداء وقابلية التوسع الذي يمكنني تحقيقه باستخدام نشاط النسخ لسيناريوهات ترحيل البيانات واستيعاب البيانات؟
- ما هي الخطوات التي يجب أن أتخذها لضبط أداء نشاط النسخ؟
- ما هي تحسينات الأداء التي يمكنني الاستفادة منها لتشغيل نشاط نسخة واحدة؟
- ما هي العوامل الخارجية الأخرى التي يجب مراعاتها عند تحسين أداء النسخ؟
Note
إذا لم تكن على دراية بنشاط النسخ بشكل عام، فراجع نظرة عامة على نشاط النسخ قبل قراءة هذه المقالة.
أداء النسخ وقابلية التوسع يمكن تحقيقه باستخدام خطوط أنابيب Azure Data Factory وSynapse
تقدم خطوط أنابيب Azure Data Factory وSynapse بنية بدون خادم تسمح بالتوازي على مستويات مختلفة.
تسمح لك هذه البنية بتطوير مسارات تزيد من معدل نقل حركة البيانات للبيئة الخاصة بك. تستخدم هذه التدفقات بشكل كامل الموارد التالية:
- عرض النطاق الترددي للشبكة بين مخازن البيانات المصدر والوجهة
- عمليات الإدخال/الإخراج الخاصة بمصدر أو مخزن بيانات الوجهة في الثانية (IOPS) وعرض النطاق الترددي
ويعني هذا الاستخدام الكامل أنه يمكنك تقدير إجمالي الإنتاجية عن طريق قياس الحد الأدنى من معدل النقل المتاح بالموارد التالية:
- مخزن بيانات المصدر
- مخزن بيانات الوجهة
- عرض النطاق الترددي للشبكة بين مخازن بيانات المصدر والوجهة
يوضح الجدول أدناه حساب مدة حركة البيانات. يتم حساب المدة في كل خلية استناداً إلى شبكة معينة وعرض نطاق ترددي لتخزين البيانات وحجم حمولة بيانات معطاة.
Note
المدة الموضحة أدناه تهدف إلى تمثيل الأداء القابل للتحقيق في حل تكامل البيانات من طرف إلى طرف باستخدام واحدة أو أكثر من تقنيات تحسين الأداء الموضحةفي ميزات تحسين أداء النسخ، بما في ذلك استخدام ForEach لتقسيم وإنتاج أنشطة النسخ المتزامنة المتعددة. نوصي باتباع الخطوات الموضحة في خطوات ضبط الأداء لتحسين أداء النسخ لمجموعة البيانات وتكوين النظام المحددين. يجب استخدام الأرقام التي تم الحصول عليها في اختبارات ضبط الأداء لتخطيط نشر الإنتاج وتخطيط السعة وإسقاط الفواتير.
| حجم البيانات / bandwidth |
50 ميغابت لكل ثانية | 100 ميغابت في الثانية | 500 ميغابت لكل ثانية | يبلغ 1 جيجابت في الثانية | 5 غيغابت في الثانية | 10 جيجابت في الثانية | 50 جيجابت في الثانية |
|---|---|---|---|---|---|---|---|
| 1 جيجابايت | 2.7 دقيقة | دقيقة 1.4 | 0.3 دقيقة | 0.1 دقيقة | 0.03 دقيقة | 0.01 دقيقة | 0.0 دقيقة |
| 10 جيجابايت | 27.3 دقيقة | 13.7 دقيقة | 2.7 دقيقة | دقيقة 1.3 | 0.3 دقيقة | 0.1 دقيقة | 0.03 دقيقة |
| 100 جيجابايت | 4.6 ساعات | 2.3 ساعة | 0.5 ساعة | 0.2 ساعة | 0.05 ساعة | 0.02 ساعة | 0.0 ساعة |
| 1 تيرابايت | 46.6 ساعة | 23.3 ساعة | 4.7 ساعة | 2.3 ساعة | 0.5 ساعة | 0.2 ساعة | 0.05 ساعة |
| 10 تيرابايت | 19.4 يوما | 9.7 أيام | 1.9 أيام | 0.9 يوم | 0.2 يوم | 0.1 يوم | 0.02 يوم |
| 100 تيرابايت | 194.2 يوم | 97.1 يوما | 19.4 يوما | 9.7 أيام | 1.9 أيام | يوم واحد | 0.2 يوم |
| رقم شخصي واحد | 64.7 شهرا | 32.4 شهرا | 6.5 أشهر | 3.2 أشهر | 0.6 شهر | 0.3 مو | 0.06 شهر |
| رقم 10 شخصي | 647.3 شهير | 323.6 شهرا | 64.7 شهرا | 31.6 شهرا | 6.5 أشهر | 3.2 أشهر | 0.6 شهر |
النسخ قابل للتوسيع على مستويات مختلفة:
يمكن أن يبدأ تدفق التحكم في أنشطة نسخ متعددة بالتوازي، على سبيل المثال باستخدام لكل حلقة.
يمكن لنشاط النسخة الواحدة الاستفادة من موارد الحوسبة القابلة للتحجيم.
- عند استخدام وقت تشغيل التكامل Azure (IR)، يمكنك تحديد حتى 256 وحدة تكامل بيانات (DIUs) لكل نشاط نسخ، بطريقة بدون خادم.
- عند استخدام وقت تشغيل التكامل المستضاف ذاتيا، يمكنك اتباع أي من الطرق التالية:
- قم بتحجيم الجهاز يدوياً.
- قم بالتحجيم إلى أجهزة متعددة(حتى 4 عقد)،وسيقسم نشاط النسخة الواحدة مجموعة الملفات الخاصة به عبر جميع العقد.
يقوم نشاط نسخة واحدة من مخزن البيانات بالقراءة والكتابة باستخدام مؤشرات ترابط متعددة بالتوازي.
خطوات ضبط الأداء
اتخاذ الخطوات التالية لضبط أداء الخدمة الخاصة بك مع نشاط النسخ:
اختر مجموعة بيانات اختبار وقم بإنشاء خط أساسي.
أثناء التطوير، اختبر مسارك باستخدام نشاط النسخ مقابل نموذج بيانات تمثيلي. يجب أن تمثل مجموعة البيانات التي تختارها أنماط البيانات النموذجية مع السمات التالية:
- بنية المجلد
- نمط الملف
- مخطط البيانات
ويجب أن تكون مجموعة البيانات كبيرة بما يكفي لتقييم أداء النسخ. يستغرق الحجم الجيد 10 دقائق على الأقل لإكمال نشاط النسخ. اجمع تفاصيل التنفيذ وخصائص الأداء بعد رصد نشاط النسخ.
كيفية تحقيق أقصى قدر من الأداء لنشاط نسخة واحدة:
نوصي أولاً بتكبير الأداء باستخدام نشاط نسخة واحدة.
إذا كان نشاط النسخ يتم تنفيذه على Azure وقت تشغيل التكامل:
ابدأ بالقيم الافتراضية لوحدات تكامل البيانات (DIU) وإعدادات النسخ المتوازية.
إذا كان يتم تنفيذ نشاط النسخة على وقت تشغيل تكامل مستضاف ذاتياً:
نوصي باستخدام جهاز مخصص لاستضافة وقت تشغيل التكامل. يجب أن يكون الجهاز منفصلاً عن الخادم الذي يستضيف مخزن البيانات. ابدأ بالقيم الافتراضية لإعداد النسخ المتوازي واستخدام عقدة واحدة لوقت تشغيل التكامل المستضاف ذاتياً.
قم بإجراء اختبار أداء تشغيل. قم بتدوين ملاحظات عن الأداء الذي تم تحقيقه. قم بتضمين القيم الفعلية المستخدمة، مثل وحدات DIUs والنسخ المتوازية. راجع مراقبة نشاط النسخ حول كيفية تجميع نتائج التشغيل وإعدادات الأداء المستخدمة. تعرف على كيفية استكشاف أخطاء أداء نشاط النسخ وإصلاحها لتحديد الازدحام وحله.
كرر لإجراء المزيد من عمليات اختبار الأداء باتباع إرشادات استكشاف الأخطاء وإصلاحها والضبط. بمجرد أن يتعذر على تشغيل نشاط النسخة الفردية تحقيق معدل نقل أفضل، ضع في اعتبارك ما إذا كنت تريد زيادة معدل النقل الإجمالي إلى أقصى حد عن طريق تشغيل نسخ متعددة بشكل متزامن. تتم مناقشة هذا الخيار في الرمز النقطي المرقم التالي.
كيفية تكبير معدل النقل الإجمالي عن طريق تشغيل نسخ متعددة في نفس الوقت:
الآن قمت بتكبير أداء نشاط نسخة واحدة. إذا لم تكن قد حققت بعد حدود إنتاجية أعلى لبيئتك، فيمكنك تشغيل أنشطة نسخ متعددة بالتوازي. يمكنك التشغيل بالتوازي باستخدام بنيات تدفق التحكم. واحد من هذه البنية هو لكل حلقة. لمزيد من المعلومات، راجع المقالات التالية حول قوالب الحل:
قم بتوسيع التكوين إلى مجموعة البيانات بأكملها الخاصة بك.
عندما تكون راضياً عن نتائج التنفيذ والأداء، يمكنك توسيع التعريف والمسارات لتغطية مجموعة البيانات بأكملها الخاصة بك.
استكشاف أخطاء أداء نشاط النسخ وإصلاحها
اتبع خطوات ضبط الأداء لتخطيط وإجراء اختبار الأداء للسيناريو الخاص بك. وتعلم كيفية استكشاف أخطاء مشكلة أداء تشغيل كل نشاط نسخ من استكشاف أخطاء أداء نشاط النسخ.
نسخ ميزات تحسين الأداء
توفر الخدمة ميزات تحسين الأداء التالية:
وحدات تكامل البيانات
وحدة تكامل البيانات (DIU) هي مقياس يمثل قوة وحدة واحدة في خطوط أنابيب Azure Data Factory وSynapse. الطاقة هي مزيج من CPU والذاكرة وتخصيص موارد الشبكة. ينطبق DIU فقط على وقت تشغيل التكامل Azure التكامل. لا ينطبق DIU على وقت تشغيل التكامل المستضاف ذاتيا. تعرَّف على المزيد من هنا.
قابلية توسع وقت تشغيل التكامل المستضاف ذاتياً
قد ترغب في استضافة زيادة حجم العمل المتزامن. أو قد ترغب في تحقيق أداء أعلى في مستوى حمل العمل الحالي. يمكنك تحسين مقياس المعالجة بواسطة الطرق التالية:
- يمكنك زيادة وقت تشغيل التكامل المستضاف ذاتياً بزيادة عدد المهام المتزامنة التي يمكن تشغيلها على عقدة.
يمكن الزيادة فقط إذا كان المعالج وذاكرة العقدة يتم استخدامها بشكل أقل من استخدامها بالكامل. - يمكنك زيادة وقت تشغيل التكامل المستضاف ذاتياً، عن طريق إضافة المزيد من العقد (الأجهزة).
لمزيد من المعلومات، راجع:
- ميزات تحسين الأداء Copy activity: قابلية التوسع أثناء التشغيل مع التكامل المستضاف ذاتيا
- إنشاء وقت تشغيل تكامل مستضاف ذاتياً وتكوينه: اعتبارات المقياس
نسخة متوازية
يمكنك تعيين خاصية parallelCopies للإشارة إلى التوازي الذي تريد أن يستخدمه نشاط النسخة. فكر في هذه الخاصية كأقصى عدد من مؤشرات الترابط ضمن نشاط النسخ. مؤشرات الترابط تعمل بالتوازي. مؤشرات الترابط إما القراءة من المصدر الخاص بك أو الكتابة إلى مخازن بيانات المتلقي الخاص بك.
اعرف المزيد.
نسخة مرحلية
يمكن لعملية نسخ البيانات إرسال البيانات مباشرة إلى مخزن بيانات المتلقي. بدلاً من ذلك، يمكنك اختيار استخدام تخزين Blob كمخزن مرحلة مؤقتة. اعرف المزيد.
المحتوى ذو الصلة
راجع مقالات نشاط النسخ الأخرى: