أفضل ممارسات تكوين الحساب

توضح هذه المقالة توصيات لإعداد تكوينات الحوسبة الاختيارية. لتقليل قرارات التكوين، توصي Azure Databricks بالاستفادة من نهج الحوسبة والحوسبة بلا خادم.

  • لا يتطلب الحساب بلا خادم تكوين إعدادات الحوسبة. الحوسبة بلا خادم متاحة دائما ويتم قياسها وفقا لحمل العمل الخاص بك. راجع أنواع الحوسبة.

  • تتيح لك نهج الحوسبة إنشاء حساب تم تكوينه مسبقا مصمم لحالات استخدام معينة مثل الحوسبة الشخصية والحوسبة المشتركة ومستخدمي الطاقة والمهام. إذا لم يكن لديك حق الوصول إلى النهج، فاتصل بمسؤول مساحة العمل. راجع النهج الافتراضية وعائلات النهج.

إذا اخترت إنشاء حساب مع التكوينات الخاصة بك، فإن الأقسام أدناه توفر توصيات لحالات الاستخدام النموذجية.

إشعار

تفترض هذه المقالة أن لديك إنشاء نظام مجموعة غير مقيد. يجب أن يمنح مسؤولو مساحة العمل هذا الامتياز فقط للمستخدمين المتقدمين.

حساب اعتبارات التحجيم

الأشخاص غالبا ما تفكر في حجم الحساب من حيث عدد العمال، ولكن هناك عوامل هامة أخرى يجب مراعاتها:

  • إجمالي الذاكرات الأساسية للمنفذ (الحساب): العدد الإجمالي للذاكرات الأساسية عبر جميع المنفذين. يحدد هذا الحد الأقصى من التوازي للحساب.
  • إجمالي ذاكرة المنفذ: إجمالي كمية ذاكرة الوصول العشوائي عبر جميع المنفذين. يحدد هذا مقدار البيانات التي يمكن تخزينها في الذاكرة قبل نقلها إلى القرص.
  • التخزين المحلي للمنفذ: نوع ومقدار تخزين القرص المحلي. يستخدم القرص المحلي بشكل أساسي في حالة الانسكابات أثناء التبديل والتخزين المؤقت.

تتضمن الاعتبارات الإضافية نوع مثيل العامل وحجمه، والذي يؤثر أيضا على العوامل أعلاه. عند تغيير حجم الحساب الخاص بك، ضع في اعتبارك:

  • ما مقدار البيانات التي سيستهلكها حمل العمل الخاص بك؟
  • ما هو التعقيد الحسابي لحمل العمل الخاص بك؟
  • من أين تقرأ البيانات؟
  • كيف يتم تقسيم البيانات في التخزين الخارجي؟
  • ما مقدار التوازي الذي تحتاجه؟

ستساعدك الإجابة عن هذه الأسئلة على تحديد تكوينات الحوسبة المثلى استنادا إلى أحمال العمل.

هناك إجراء موازنة بين عدد العمال وحجم أنواع مثيلات العامل. تكوين الحوسبة مع اثنين من العاملين، لكل منهما 40 نواة وذاكرة وصول عشوائي 100 غيغابايت، له نفس الحوسبة والذاكرة مثل تكوين الحوسبة مع 10 ذاكرات أساسية و25 غيغابايت من ذاكرة الوصول العشوائي.

أمثلة حساب التحجيم

تظهر الأمثلة التالية توصيات الحساب استنادا إلى أنواع محددة من أحمال العمل. تتضمن هذه الأمثلة أيضا تكوينات لتجنب ولماذا هذه التكوينات غير مناسبة لنوع حمل العمل.

تحليل البيانات

عادة ما يقوم محللو البيانات بمعالجة البيانات المطلوبة من أقسام متعددة، ما يؤدي إلى العديد من عمليات التبديل العشوائي. يمكن أن يقلل الحساب مع عدد أقل من العقد من إدخال/إخراج الشبكة والقرص المطلوب لتنفيذ هذه التبديلات.

إذا كنت تكتب SQL فقط، فإن أفضل خيار لتحليل البيانات سيكون مستودع SQL بلا خادم.

إشعار

إذا تم تمكين مساحة العمل الخاصة بك للمعاينة العامة للحساب بلا خادم، يمكنك استخدام الحوسبة بلا خادم لتشغيل التحليل في Python أو SQL. راجع الحوسبة بلا خادم لدفاتر الملاحظات.

إذا كان يجب عليك تكوين حساب جديد، فمن المحتمل أن يكون حساب عقدة واحدة مع نوع جهاز ظاهري كبير هو الخيار الأفضل، خاصة لمحلل واحد.

من المحتمل أن تتطلب أحمال العمل التحليلية قراءة نفس البيانات بشكل متكرر، لذلك يتم تحسين أنواع العقد الموصى بها مع تمكين ذاكرة التخزين المؤقت للقرص.

تتضمن الميزات الإضافية الموصى بها لأحمال العمل التحليلية ما يلي:

  • تمكين الإنهاء التلقائي لضمان إنهاء الحساب بعد فترة من عدم النشاط.
  • ضع في اعتبارك تمكين التحجيم التلقائي استنادا إلى حمل العمل النموذجي للمحلل.
  • ضع في اعتبارك استخدام التجمعات، والتي ستسمح بتقييد الحوسبة على أنواع المثيلات المعتمدة مسبقا وضمان تكوينات حساب متسقة.

الدفعة الأساسية ETL

إشعار

إذا تم تمكين مساحة العمل الخاصة بك للحوسبة بلا خادم لسير العمل (المعاينة العامة)، يمكنك استخدام الحوسبة بلا خادم لتشغيل مهامك. راجع الحوسبة بلا خادم لدفاتر الملاحظات.

عادة ما تستفيد وظائف ETL الدفعية البسيطة التي لا تتطلب تحويلات واسعة، مثل الصلات أو التجميعات، من أنواع العاملين المحسنة للحساب.

يتمتع العمال المحسنون للحساب بمتطلبات أقل للذاكرة والتخزين وقد يؤدي ذلك إلى توفير التكاليف على أنواع العاملين الآخرين.

دفعة ETL معقدة

إشعار

إذا تم تمكين مساحة العمل الخاصة بك للحوسبة بلا خادم لسير العمل (المعاينة العامة)، يمكنك استخدام الحوسبة بلا خادم لتشغيل مهامك. راجع الحوسبة بلا خادم لدفاتر الملاحظات.

بالنسبة لوظيفة ETL المعقدة، مثل تلك التي تتطلب الاتحادات والصلات عبر جداول متعددة، توصي Databricks بتقليل عدد العمال لتقليل كمية البيانات التي تم تبديلها.

يمكن أن تكون التحويلات المعقدة كثيفة الحوسبة. إذا لاحظت تسربا كبيرا إلى القرص أو أخطاء OOM، يجب إضافة عقد إضافية.

توصي Databricks بأنواع العاملين المحسنة للحساب. يتمتع العمال المحسنون للحساب بمتطلبات أقل للذاكرة والتخزين وقد يؤدي ذلك إلى توفير التكاليف على أنواع العاملين الآخرين. اختياريا، استخدم التجمعات لتقليل أوقات تشغيل الحوسبة وتقليل إجمالي وقت التشغيل عند تشغيل مسارات المهام.

تدريب نماذج التعلم الآلي

توصي Databricks بحساب عقدة واحدة مع نوع عقدة كبيرة للتجريب الأولي مع نماذج التعلم الآلي التدريبية. وجود عدد أقل من العقد يقلل من تأثير التبديلات.

يمكن أن تساعد إضافة المزيد من العمال في الاستقرار، ولكن يجب تجنب إضافة عدد كبير جدا من العمال بسبب النفقات العامة لخلط البيانات.

أنواع العاملين الموصى بها هي التخزين الأمثل مع تمكين التخزين المؤقت للقرص لحساب القراءات المتكررة لنفس البيانات ولتمكين التخزين المؤقت لبيانات التدريب. إذا كانت خيارات الحوسبة والتخزين التي توفرها عقد التخزين المحسنة غير كافية، ففكر في العقد المحسنة لوحدة معالجة الرسومات. الجانب السلبي المحتمل هو عدم وجود دعم التخزين المؤقت للقرص مع هذه العقد.

تتضمن الميزات الإضافية الموصى بها لأحمال عمل التعلم الآلي ما يلي:

  • تمكين الإنهاء التلقائي لضمان إنهاء الحساب بعد فترة من عدم النشاط.
  • استخدم التجمعات، والتي ستسمح بتقييد الحوسبة على أنواع المثيلات المعتمدة مسبقا وتضمن تكوينات حساب متسقة.