تحسين الأداء الخاص بوقت تشغيل تكامل Azure
تدفق البيانات الجاري تشغيله على نظام المجموعة التي يتم تدويرها حتى أثناء وقت التشغيل. يتم تعريف التكوين لنظام المجموعة المستخدمة في وقت تشغيل التكامل (IR) للنشاط. يوجد ثلاثة اعتبارات أداء لتقوم بها عند تعريف وقت تشغيل التكامل الخاص بك: نوع نظام المجموعة ونظام المجموعة ووقت live.
للمزيد من المعلومات حول طريقة إنشاء وقت تشغيل تكامل، يرجى مراجعةوقت تشغيل التكامل.
أسهل طريقة للبدء في أوقات تشغيل تكامل تدفق البيانات هي اختيار صغيرة أو متوسطة أو كبيرة من منتقي حجم الحساب. راجع تعيينات تكوينات نظام المجموعة لتلك الأحجام أدناه.
حجم نظام المجوعة
تقوم تدفقات البيانات بتوزيع معالجة البيانات على مراكز مختلفة في مجموعة Spark لتنفيذ العمليات بالتوازي. يزيد نظام مجموعة Spark مع المزيد من الذاكرات الأساسية من عدد الذاكرات الأساسية في بيئة الحوسبة. يزيد المزيد من الذاكرات الأساسية من قوة المعالجة لتدفق البيانات. غلبا ما يكون زيادة حجم نظام المجموعة طريقة سهلة لتقليل وقت المعالجة.
حجم نظام المجموعة الافتراضي هو أربعة ذاكرات أساسية لبرنامج التشغيل وأربعة ذاكرات أساسية عاملة (صغيرة). يوصى بأنظمة مجموعات أكبر، أثناء معالجة المزيد من البيانات. فيما يلي الخيارات المحتملة لتغيير الحجم:
الذاكرات الأساسية للعامل | برامج التشغيل الأساسية | إجمالي وحدات الذاكرة الأساسية | ملاحظات |
---|---|---|---|
4 | 4 | 8 | صغير |
8 | 8 | 16 | متوسط |
16 | 16 | 32 | كبير |
32 | 16 | 48 | |
64 | 16 | 80 | |
128 | 16 | 144 | |
256 | 16 | 272 |
يتم تسعير تدفقات البيانات في vcore-hrs والذي يعني أن ذلك يتضمن كلا من حجم نظام المجموعة وعامل وقت التنفيذ. كلما قمت بتغيير الحجم، تزيد تكلفة نظام المجموعة الخاصة بك في الدقيقة، مع انخفاض الوقت الإجمالي.
تلميح
يوحد حد أقصى لمقدار حجم نظام مجموعة والذي يؤثر على أداء تدفق البيانات. يوجد نقطة يتوقف عندها تحسن أداء زيادة حجم نظام المجموعة، استنادا إلى حجم البيانات الخاصة بك. على سبيل المثال، إذا كان لديك مراكز أكثر من أقسام البيانات، فلن تساعد إضافة ذاكرات أساسية إضافية. أفضل الممارسات عبارة عن البدء في العمل على نطاق صغير لتلبية احتياجات الأداء الخاصة بك.
قسم التبديل العشوائي المخصص
يقسم تدفق البيانات إلى أقسام ويحولها باستخدام عمليات مختلفة. إذا كان حجم البيانات في القسم أكثر من الذي يمكن أن تحتفظ به العملية في الذاكرة، تفشل العملية مع أخطاء OOM (نفاد الذاكرة). إذا كان تدفق البيانات يحتوي على كميات هائلة من البيانات ذات الصلات/التجميعات، فقد تحتاج إلى محاولة تغيير أقسام التبديل العشوائي بطريقة تزايدية. يمكنك تعيينه من 50 حتى 2000، لتجنب أخطاء OOM. حساب الخصائص المخصصة في وقت تشغيل تدفق البيانات، هو طريقة للتحكم في متطلبات الحوسبة الخاصة بك. اسم الخاصية هو أقسام التبديل العشوائي وهو نوع عدد صحيح. يجب استخدام هذا التخصيص فقط في السيناريوهات المعروفة، وإلا يمكن أن يتسبب في فشل تدفق البيانات غير الضروري.
أثناء زيادة أقسام التبديل العشوائي، تأكد من انتشار البيانات عبر بشكل جيد. العدد التقريبي هو أن يكون لديه ما يقرب من 1.5 غيغابايت من البيانات لكل قسم. إذا انحرفت البيانات، فلن تكون زيادة "أقسام التبديل العشوائي" مفيدة. على سبيل المثال، إذا كان لديك 500 غيغابايت من البيانات، يجب أن يعمل وجود قيمة بين 400 إلى 500. الحد الافتراضي لأقسام التبديل العشوائي هو 200 الذي يعمل بشكل جيد لما يقرب من 300 غيغابايت من البيانات.
- من مدخل ADF ضمن Manage، حدد وقت تشغيل تكامل مخصص وانتقل إلى وضع التحرير.
- ضمن علامة التبويب وقت تشغيل تدفق البيانات، انتقل إلى قسم حساب الخصائص المخصصة.
- حدد Shuffle partitions ضمن Property name، وقيمة الإدخال التي تختارها، مثل 250، 500 وما إلى ذلك.
يمكنك القيام بنفس الشيء عن طريق تحرير ملف JSON لوقت التشغيل عن طريق إضافة صفيف باسم الخاصية والقيمة بعد خاصية موجودة مثل خاصية التنظيف .
حان الوقت للحياة
يدور كل نشاط خاص بتدفق بيانات نظام مجموعة Spark جديدة استنادا إلى تكوين وقت تشغيل تكامل Azure. يستغرق وقت بدء تشغيل نظام المجموعة المؤقت بضع دقائق ولا يمكن بدء معالجة البيانات حتى يكتمل التشغيل. إذا كانت البنية الأساسية لبرنامج ربط العمليات التجارية تحتوي على تدفقات بياناتمتسلسلةومتعددة، يمكنك تمكين قيمة وقت live (TTL). يحتفظ تحديد قيمة وقت live بمجموعة نظام نشطة لفترة معينة من الوقت بعد اكتمال تنفيذه. إذا بدأت مهمة جديدة باستخدام وقت تشغيل التكامل خلال وقت TTL، فستعيد استخدام نظام المجموعة الحالي وسيتم تقليل وقت البدء بشكل كبير. يظل نظام المجموعة نشط لمرة أخرى لوقت TTL، بعد اكتمال المهمة الثانية الكتلة.
ومع ذلك، لا يوصى بتمكين TTL لوقت تشغيل التكامل والتي تستخدمها لهذه الأنشطة، في حالة قيام تدفق البيانات بالتنفيذ بالتوازي. يمكن تشغيل مهمة واحدة فقط على نظام مجموعة واحد في كل مرة. يتمكن واحد فقط من تدفقات البيانات من استخدام نظام المجموعة المباشر، في حالة توفر نظام مجموعة واحد، مع وجود اثنين من تدفق البيانات جار تشغيلهما. تقوم المهمة الثانية بتدوير نظام المجموعة المعزول الخاص بها.
إشعار
لا تتوفر مدة البقاء عند استخدام وقت تشغيل تكامل الحل التلقائي (افتراضي)
المحتوى ذو الصلة
راجع مقالات تدفق البيانات الأخرى المتعلقة بالأداء: