توصيات تكوين الحساب

تتضمن هذه المقالة توصيات وأفضل الممارسات المتعلقة بتكوين الحساب.

إذا كان حمل العمل الخاص بك مدعوما، توصي Databricks باستخدام الحوسبة بلا خادم بدلا من تكوين مورد الحوسبة الخاص بك. الحساب بلا خادم هو الخيار الحوسبي الأبسط والأكثر موثوقية. لا يتطلب أي تكوين، ومتاح دائما، ويتدرج وفقا لحمل العمل الخاص بك. تتوفر الحوسبة بلا خادم لدفاتر الملاحظات والمهام وجداول Delta Live. راجع الاتصال بالحوسبة بلا خادم.

بالإضافة إلى ذلك، يمكن لمحللي البيانات استخدام مستودعات SQL بلا خادم للاستعلام عن البيانات واستكشافها على Databricks. راجع ما هي مستودعات SQL بلا خادم؟.

استخدام نهج الحوسبة

إذا كنت تقوم بإنشاء حساب جديد من البداية، توصي Databricks باستخدام نهج الحوسبة. تتيح لك نهج الحوسبة إنشاء موارد حوسبة تم تكوينها مسبقا مصممة لأغراض محددة، مثل الحوسبة الشخصية والحوسبة المشتركة ومستخدمي الطاقة والمهام. تحد النهج من القرارات التي تحتاج إلى اتخاذها عند تكوين إعدادات الحساب.

إذا لم يكن لديك حق الوصول إلى النهج، فاتصل بمسؤول مساحة العمل. راجع النهج الافتراضية وعائلات النهج.

حساب اعتبارات التحجيم

إشعار

تفترض التوصيات التالية أن لديك إنشاء نظام مجموعة غير مقيد. يجب أن يمنح مسؤولو مساحة العمل هذا الامتياز فقط للمستخدمين المتقدمين.

غالبا ما يفكر الناس في حجم الحساب من حيث عدد العمال، ولكن هناك عوامل مهمة أخرى يجب مراعاتها:

  • إجمالي الذاكرات الأساسية للمنفذ (الحساب): العدد الإجمالي للذاكرات الأساسية عبر جميع المنفذين. يحدد هذا الحد الأقصى من التوازي للحساب.
  • إجمالي ذاكرة المنفذ: إجمالي كمية ذاكرة الوصول العشوائي عبر جميع المنفذين. يحدد هذا مقدار البيانات التي يمكن تخزينها في الذاكرة قبل نقلها إلى القرص.
  • التخزين المحلي للمنفذ: نوع ومقدار تخزين القرص المحلي. يستخدم القرص المحلي بشكل أساسي في حالة الانسكابات أثناء التبديل والتخزين المؤقت.

تتضمن الاعتبارات الإضافية نوع مثيل العامل وحجمه، والذي يؤثر أيضا على العوامل أعلاه. عند تغيير حجم الحساب الخاص بك، ضع في اعتبارك:

  • ما مقدار البيانات التي سيستهلكها حمل العمل الخاص بك؟
  • ما هو التعقيد الحسابي لحمل العمل الخاص بك؟
  • من أين تقرأ البيانات؟
  • كيف يتم تقسيم البيانات في التخزين الخارجي؟
  • ما مقدار التوازي الذي تحتاجه؟

ستساعدك الإجابة عن هذه الأسئلة على تحديد تكوينات الحوسبة المثلى استنادا إلى أحمال العمل.

هناك إجراء موازنة بين عدد العمال وحجم أنواع مثيلات العامل. تكوين الحوسبة مع اثنين من العمال، لكل منهما 16 نواة وذاكرة وصول عشوائي 128 غيغابايت، له نفس الحوسبة والذاكرة مثل تكوين الحوسبة مع 8 عمال، كل منهم مع 4 ذاكرات أساسية و32 غيغابايت من ذاكرة الوصول العشوائي.

أمثلة تكوين الحساب

تظهر الأمثلة التالية توصيات الحساب استنادا إلى أنواع محددة من أحمال العمل. تتضمن هذه الأمثلة أيضا تكوينات لتجنب ولماذا هذه التكوينات غير مناسبة لنوع حمل العمل.

إشعار

يمكن أن تستفيد جميع الأمثلة في هذا القسم (بالإضافة إلى تدريب التعلم الآلي) من استخدام الحوسبة بلا خادم بدلا من تدوير مورد حساب جديد. إذا لم يكن حمل العمل الخاص بك مدعوما على بلا خادم، فاستخدم التوصيات أدناه للمساعدة في تكوين مورد الحساب الخاص بك.

تحليل البيانات

عادة ما يقوم محللو البيانات بمعالجة البيانات المطلوبة من أقسام متعددة، ما يؤدي إلى العديد من عمليات التبديل العشوائي. يمكن لمورد الحوسبة مع عدد أقل من العقد الأكبر تقليل إدخال/إخراج الشبكة والقرص المطلوب لتنفيذ هذه التبديلات.

من المحتمل أن يكون حساب عقدة واحدة مع نوع جهاز ظاهري كبير هو الخيار الأفضل، خاصة لمحلل واحد.

من المحتمل أن تتطلب أحمال العمل التحليلية قراءة نفس البيانات بشكل متكرر، لذلك يتم تحسين أنواع العقد الموصى بها مع تمكين ذاكرة التخزين المؤقت للقرص أو المثيلات مع التخزين المحلي.

تتضمن الميزات الإضافية الموصى بها لأحمال العمل التحليلية ما يلي:

  • تمكين الإنهاء التلقائي لضمان إنهاء الحساب بعد فترة من عدم النشاط.
  • ضع في اعتبارك تمكين التحجيم التلقائي استنادا إلى حمل العمل النموذجي للمحلل.

الدفعة الأساسية ETL

عادة ما تستفيد وظائف ETL الدفعية البسيطة التي لا تتطلب تحويلات واسعة، مثل الصلات أو التجميعات، من Photon. لذلك، حدد مثيلا للأغراض العامة يدعم Photon.

قد تؤدي المثيلات ذات المتطلبات الأقل للذاكرة والتخزين إلى توفير التكاليف على أنواع العاملين الأخرى.

دفعة ETL معقدة

بالنسبة لوظيفة ETL المعقدة، مثل الوظيفة التي تتطلب الاتحادات والصلات عبر جداول متعددة، توصي Databricks باستخدام عدد أقل من العمال لتقليل كمية البيانات التي تم تبديلها. للتعويض عن وجود عدد أقل من العمال، قم بزيادة حجم المثيلات الخاصة بك.

يمكن أن تكون التحويلات المعقدة كثيفة الحوسبة. إذا لاحظت تسربا كبيرا إلى القرص أو أخطاء OOM، فقم بزيادة مقدار الذاكرة المتوفرة على المثيلات الخاصة بك.

اختياريا، استخدم التجمعات لتقليل أوقات تشغيل الحوسبة وتقليل إجمالي وقت التشغيل عند تشغيل مسارات المهام.

تدريب نماذج التعلم الآلي

لتدريب نماذج التعلم الآلي، توصي Databricks بإنشاء مورد حساب باستخدام نهج الحوسبة الشخصية.

يجب استخدام حساب عقدة واحدة مع نوع عقدة كبيرة للتجربة الأولية مع نماذج التعلم الآلي التدريبية. وجود عدد أقل من العقد يقلل من تأثير التبديلات.

يمكن أن تساعد إضافة المزيد من العمال في الاستقرار، ولكن يجب تجنب إضافة عدد كبير جدا من العمال بسبب النفقات العامة لخلط البيانات.

أنواع العاملين الموصى بها هي التخزين الأمثل مع تمكين التخزين المؤقت للقرص، أو مثيل مع تخزين محلي لحساب القراءات المتكررة لنفس البيانات ولتمكين التخزين المؤقت لبيانات التدريب.

تتضمن الميزات الإضافية الموصى بها لأحمال عمل التعلم الآلي ما يلي:

  • تمكين الإنهاء التلقائي لضمان إنهاء الحساب بعد فترة من عدم النشاط.
  • استخدم التجمعات، والتي ستسمح بتقييد الحساب إلى نوع المثيل المعتمد مسبقا.
  • تأكد من تكوينات الحوسبة المتسقة باستخدام النهج.