تكوينات تجمع Apache Spark في Azure Synapse Analytics

تجمع Spark عبارة عن مجموعة من بيانات التعريف التي تحدد متطلبات مورد الحوسبة وخصائص السلوك المرتبطة عند إنشاء مثيل Spark. تتضمن هذه الخصائص على سبيل المثال لا الحصر الاسم وعدد العقد وحجم العقدة وسلوك القياس ووقت العيش. تجمع Spark في حد ذاته لا يستهلك أي موارد. لا توجد تكاليف يتم تكبدها عند إنشاء حمامات سبارك. يتم تكبد الرسوم بمجرد تنفيذ مهمة Spark على تجمع Spark المستهدف ويتم إنشاء مثيل Spark عند الطلب.

يمكنك قراءة كيفية إنشاء Spark pool ورؤية جميع ممتلكاتهم هنا بدء استخدام Spark pool في تحليلات Synapse

حساب معزول

يوفر خيار الحساب المعزول المزيد من الأمان لحساب Spark للموارد من الخدمات غير الموثوق بها من خلال تخصيص مورد الحساب المادي لعميل واحد. يعد خيار الحوسبة المعزولة هو الأنسب لأحمال العمل التي تتطلب درجة عالية من العزلة عن أعباء عمل العملاء الآخرين لأسباب تشمل تلبية متطلبات الامتثال والتنظيم. لا يتوفر خيار Isolate Compute إلا مع حجم عقدة XXXLarge (80 vCPU/504 GB) ومتاح فقط في المناطق التالية. يمكن تمكين خيار الحساب المعزول أو تعطيله بعد إنشاء التجمع على الرغم من أنه قد يلزم إعادة تشغيل المثيل. إذا كنت تتوقع تمكين هذه الميزة في المستقبل، فتأكد من إنشاء مساحة عمل Synapse في منطقة معزولة تدعم الحوسبة.

  • شرق الولايات المتحدة
  • منطقة غرب الولايات المتحدة الأمريكية 2
  • جنوب وسط الولايات المتحدة
  • US Gov – أريزونا
  • ولاية فرجينيا الأمريكية

العُقد

يتكون مثيل تجمع Apache Spark من عقدة رأس واحدة وعقدتين عاملة أو أكثر مع ما لا يقل عن ثلاث عقد في مثيل Spark. تدير العقدة الرئيسية خدمات إدارة إضافية مثل Livy وYarn Resource Manager وZookeeper وSpark driver. تقوم جميع العقد بتشغيل خدمات مثل Node Agent وYarn Node Manager. تقوم جميع العقد العاملة بتشغيل خدمة Spark Executor.

أحجام العقدة

يمكن تعريف تجمع Spark بأحجام عقدة تتراوح من عقدة حوسبة صغيرة مع 4 vCore و32 جيجا بايت من الذاكرة حتى عقدة حساب XXLarge مع 64 vCore و512 جيجا بايت من الذاكرة لكل عقدة. يمكن تغيير أحجام العقد بعد إنشاء التجمع على الرغم من أن المثيل قد يحتاج إلى إعادة التشغيل.

الحجم وحدة المعالجة الظاهرية ذاكرة
صغير 4 32 غيغابايت
متوسط ⁧⁩8⁧⁩ 64 غيغابايت
كبير ⁧⁩16⁧⁩ 128 غيغابايت
كبير للغاية 32 256 جيجابايت
XXLarge 64 512 غيغابايت
XXX Large (حساب معزول) 80 504 جيجابايت

التحجيم التلقائي

يسمح مقياس تلقائي لمجموعات Apache Spark بتوسيع نطاق موارد الحوسبة وتصغيرها تلقائيًا استنادًا إلى مقدار النشاط. عندما يتم تمكين ميزة القياس التلقائي، عيّن الحد الأدنى والحد الأقصى لعدد العقد للقياس. عند تعطيل ميزة القياس التلقائي، سيظل عدد العقد المحددة ثابتًا. يمكن تغيير هذا الإعداد بعد إنشاء التجمع رغم أن المثيل قد يحتاج إلى إعادة التشغيل.

تخزين التجمع المرن

تدعم تجمعات Apache Spark الآن تخزين التجمع المرن. يسمح تخزين التجمع المرن لمحرك Spark بمراقبة التخزين المؤقت للمجموعة العاملة، وإرفاق أقراص إضافية إذا لزم الأمر. تستخدم تجمعات Apache Spark تخزين القرص المؤقت أثناء إنشاء مثيل للتجمع. تكتب وظائف Spark مخرجات الخريطة العشوائية، والبيانات العشوائية والبيانات المتسربة إلى أقراص الجهاز الظاهري المحلية. أمثلة العمليات التي قد تستخدم القرص المحلي هي الفرز والتخزين المؤقت والمستمر. عند نفاد مساحة قرص الجهاز الظاهري المؤقتة، قد تفشل مهام Spark بسبب خطأ "نفاد مساحة القرص" (java.io.IOException: لا توجد مساحة متبقية على الجهاز). مع أخطاء "نفاد مساحة القرص"، ينتقل الكثير من العبء لمنع فشل الوظائف إلى العميل لإعادة تكوين وظائف Spark (على سبيل المثال، تعديل عدد الأقسام) أو المجموعات (على سبيل المثال، إضافة المزيد من العقد إلى نظام المجموعة). قد لا تكون هذه الأخطاء متسقة، وقد ينتهي الأمر بالمستخدم إلى إجراء تجارب مكثفة عن طريق تشغيل مهام الإنتاج. يمكن أن تكون هذه العملية مكلفة للمستخدم في أبعاد متعددة:

  • الوقت الضائع. يطلب من العملاء تجربة تكوينات الوظائف بشكل كبير عبر التجربة والخطأ ومن المتوقع أن يفهموا مقاييس Spark الداخلية لاتخاذ القرار الصحيح.
  • الموارد المهدرة. نظرًا لأن وظائف الإنتاج يمكنها معالجة كمية مختلفة من البيانات، يمكن أن تفشل مهام Spark بشكل غير محدد إذا لم يتم الإفراط في توفير الموارد. على سبيل المثال، ضع في اعتبارك مشكلة انحراف البيانات، والتي قد تؤدي إلى وجود عدد قليل من العقد التي تتطلب مساحة قرص أكبر من غيرها. حاليًا في Synapse، تحصل كل عقدة في نظام مجموعة على نفس حجم مساحة القرص وزيادة مساحة القرص عبر جميع العقد ليست حلا مثاليا وتؤدي إلى إهدار هائل.
  • التباطؤ في تنفيذ الوظيفة. في السيناريو الافتراضي حيث نقوم بحل المشكلة عن طريق عقد التحجيم التلقائي (بافتراض أن التكاليف ليست مشكلة للعميل النهائي)، لا تزال إضافة عقدة حساب مكلفة (تستغرق بضع دقائق) بدلًا من إضافة التخزين (يستغرق بضع ثوانٍ).

لا يلزم اتخاذ أي إجراء من قبلك، بالإضافة إلى أنه يجب أن تشاهد عددًا أقل من حالات الفشل الوظيفي نتيجة لذلك.

ملاحظة

تخزين مجموعة Azure Synapse Elastic قيد المعاينة العامة حاليًا. أثناء المعاينة العامة، لا توجد رسوم لاستخدام تخزين Elastic Pool.

إيقاف مؤقت تلقائي

تقوم ميزة الإيقاف المؤقت التلقائي بإصدار الموارد بعد فترة خمول محددة لتقليل التكلفة الإجمالية لتجمع Apache Spark. يمكن تعيين عدد دقائق وقت الخمول بمجرد تمكين هذه الميزة. ميزة الإيقاف التلقائي مستقلة عن ميزة المقياس التلقائي. يمكن إيقاف الموارد مؤقتًا سواء تم تمكين المقياس التلقائي أو تعطيله. يمكن تغيير هذا الإعداد بعد إنشاء التجمع رغم أن المثيل قد يحتاج إلى إعادة التشغيل.

الخطوات التالية