الاستعداد لاستخدام Apache Spark
Apache Spark هو إطار عمل لمعالجة البيانات الموزعة التي تمكن تحليلات البيانات واسعة النطاق من خلال تنسيق العمل عبر عقد معالجة متعددة في مجموعة، والمعروفة في Microsoft Fabric كتجمع Spark. وببساطة أكبر، يستخدم Spark نهج "تقسيم وقهر" لمعالجة كميات كبيرة من البيانات بسرعة عن طريق توزيع العمل عبر أجهزة كمبيوتر متعددة. تتم معالجة عملية توزيع المهام وتجميع النتائج نيابة عنك بواسطة Spark.
يمكن ل Spark تشغيل التعليمات البرمجية المكتوبة بمجموعة واسعة من اللغات، بما في ذلك Java و Scala (لغة البرمجة النصية المستندة إلى Java) وSpark R وSpark SQL وPySpark (متغير خاص ب Spark من Python). في الممارسة العملية، يتم إنجاز معظم أحمال عمل هندسة البيانات والتحليلات باستخدام مزيج من PySpark وSpark SQL.
تجمعات Spark
يتكون تجمع Spark من عقد الحوسبة التي توزع مهام معالجة البيانات. تظهر البنية العامة في الرسم التخطيطي التالي.
كما هو موضح في الرسم التخطيطي، يحتوي تجمع Spark على نوعين من العقد:
- تنسق العقدة الرئيسية في تجمع Spark العمليات الموزعة من خلال برنامج تشغيل .
- يتضمن التجمع عقد عاملة متعددة تقوم فيها عمليات المنفذ بتنفيذ مهام معالجة البيانات الفعلية.
يستخدم تجمع Spark بنية الحوسبة الموزعة هذه للوصول إلى البيانات ومعالجتها في مخزن بيانات متوافق - مثل مستودع بيانات يستند إلى OneLake.
تجمعات Spark في Microsoft Fabric
يوفر Microsoft Fabric تجمع بداية في كل مساحة عمل، ما يتيح بدء تشغيل وظائف Spark وتشغيلها بسرعة بأقل إعداد وتكوين. يمكنك تكوين تجمع البداية لتحسين العقد التي يحتوي عليها وفقا لاحتياجات حمل العمل المحددة أو قيود التكلفة.
بالإضافة إلى ذلك، يمكنك إنشاء تجمعات Spark مخصصة مع تكوينات عقدة معينة تدعم احتياجات معالجة البيانات الخاصة بك.
إشعار
يمكن تعطيل القدرة على تخصيص إعدادات تجمع Spark من قبل مسؤولي Fabric على مستوى سعة النسيج. لمزيد من المعلومات، راجع إعدادات إدارة السعة لهندسة البيانات وعلوم البيانات في وثائق Fabric.
يمكنك إدارة إعدادات تجمع البداية وإنشاء تجمعات Spark جديدة في قسم مدخل المسؤول لإعدادات مساحة العمل، ضمن إعدادات السعة، ثم إعدادات هندسة البيانات/العلوم.
تتضمن إعدادات التكوين المحددة لتجمعات Spark ما يلي:
- Node Family: نوع الأجهزة الظاهرية المستخدمة لعقد نظام مجموعة Spark. في معظم الحالات، توفر العقد المحسنة للذاكرة الأداء الأمثل.
- التحجيم التلقائي: سواء كان سيتم توفير العقد تلقائيا حسب الحاجة أم لا، وإذا كان الأمر كذلك، فإن العدد الأولي والحد الأقصى للعقد التي سيتم تخصيصها للتجمع.
- التخصيص الديناميكي: ما إذا كنت تريد تخصيص عمليات المنفذ ديناميكيا على العقد العاملة استنادا إلى وحدات تخزين البيانات.
إذا قمت بإنشاء تجمع Spark مخصص واحد أو أكثر في مساحة عمل، يمكنك تعيين واحد منها (أو تجمع البداية) كتجمع افتراضي لاستخدامه إذا لم يتم تحديد تجمع معين لوظيفة Spark معينة.
تلميح
لمزيد من المعلومات حول إدارة تجمعات Spark في Microsoft Fabric، راجع تكوين تجمعات المبتدئين في Microsoft Fabric وكيفية إنشاء تجمعات Spark مخصصة في Microsoft Fabric في وثائق Microsoft Fabric.
أوقات التشغيل والبيئات
يتضمن نظام Spark مصدر مفتوح البيئي إصدارات متعددة من وقت تشغيل Spark، والذي يحدد إصدار Apache Spark وDelta Lake وPython ومكونات البرامج الأساسية الأخرى المثبتة. بالإضافة إلى ذلك، ضمن وقت التشغيل، يمكنك تثبيت واستخدام مجموعة واسعة من مكتبات التعليمات البرمجية للمهام الشائعة (وأحيانا المتخصصة جدا). نظرا لأن قدرا كبيرا من معالجة Spark يتم تنفيذها باستخدام PySpark، فإن مجموعة كبيرة من مكتبات Python تضمن أنه مهما كانت المهمة التي تحتاج إلى تنفيذها، فمن المحتمل أن تكون هناك مكتبة للمساعدة.
في بعض الحالات، قد تحتاج المؤسسات إلى تحديد بيئات متعددة لدعم مجموعة متنوعة من مهام معالجة البيانات. تحدد كل بيئة إصدار وقت تشغيل معينا بالإضافة إلى المكتبات التي يجب تثبيتها لتنفيذ عمليات معينة. يمكن لمهندسي البيانات والعلماء بعد ذلك تحديد البيئة التي يريدون استخدامها مع تجمع Spark لمهمة معينة.
أوقات تشغيل Spark في Microsoft Fabric
يدعم Microsoft Fabric أوقات تشغيل Spark متعددة، وسيستمر في إضافة دعم لأقات التشغيل الجديدة عند إصدارها. يمكنك استخدام واجهة إعدادات مساحة العمل لتحديد وقت تشغيل Spark الذي يتم استخدامه بواسطة البيئة الافتراضية عند بدء تشغيل تجمع Spark.
تلميح
لمزيد من المعلومات حول أوقات تشغيل Spark في Microsoft Fabric، راجع أوقات تشغيل Apache Spark في Fabric في وثائق Microsoft Fabric.
البيئات في Microsoft Fabric
يمكنك إنشاء بيئات مخصصة في مساحة عمل Fabric، ما يتيح لك استخدام أوقات تشغيل ومكتبات وإعدادات تكوين Spark محددة لعمليات معالجة البيانات المختلفة.
عند إنشاء بيئة، يمكنك:
- حدد وقت تشغيل Spark الذي يجب استخدامه.
- عرض المكتبات المضمنة المثبتة في كل بيئة.
- تثبيت مكتبات عامة معينة من فهرس حزمة Python (PyPI).
- تثبيت مكتبات مخصصة عن طريق تحميل ملف حزمة.
- حدد تجمع Spark الذي يجب أن تستخدمه البيئة.
- حدد خصائص تكوين Spark لتجاوز السلوك الافتراضي.
- تحميل ملفات الموارد التي تحتاج إلى أن تكون متوفرة في البيئة.
بعد إنشاء بيئة مخصصة واحدة على الأقل، يمكنك تحديدها كبيئة افتراضية في إعدادات مساحة العمل.
تلميح
لمزيد من المعلومات حول استخدام بيئات مخصصة في Microsoft Fabric، راجع إنشاء بيئة وتكوينها واستخدامها في Microsoft Fabric في وثائق Microsoft Fabric.
خيارات تكوين Spark إضافية
إدارة تجمعات Spark والبيئات هي الطرق الأساسية التي يمكنك من خلالها إدارة معالجة Spark في مساحة عمل Fabric. ومع ذلك، هناك بعض الخيارات الإضافية التي يمكنك استخدامها لإجراء المزيد من التحسينات.
محرك التنفيذ الأصلي
محرك التنفيذ الأصلي في Microsoft Fabric هو محرك معالجة متجه يقوم بتشغيل عمليات Spark مباشرة على البنية الأساسية ل lakehouse. يمكن أن يؤدي استخدام محرك التنفيذ الأصلي إلى تحسين أداء الاستعلامات بشكل كبير عند العمل مع مجموعات البيانات الكبيرة بتنسيقات ملفات Parquet أو Delta.
لاستخدام محرك التنفيذ الأصلي، يمكنك تمكينه على مستوى البيئة أو داخل دفتر ملاحظات فردي. لتمكين محرك التنفيذ الأصلي على مستوى البيئة، قم بتعيين خصائص Spark التالية في تكوين البيئة:
- spark.native.enabled: صحيح
- spark.shuffle.manager: org.apache.spark.shuffle.sort.ColumnarShuffleManager
لتمكين محرك التنفيذ الأصلي لبرنامج نصي أو دفتر ملاحظات معين، يمكنك تعيين خصائص التكوين هذه في بداية التعليمات البرمجية الخاصة بك، مثل هذا:
%%configure
{
"conf": {
"spark.native.enabled": "true",
"spark.shuffle.manager": "org.apache.spark.shuffle.sort.ColumnarShuffleManager"
}
}
تلميح
لمزيد من المعلومات حول محرك التنفيذ الأصلي، راجع محرك التنفيذ الأصلي ل Fabric Spark في وثائق Microsoft Fabric.
وضع التزامن العالي
عند تشغيل رمز Spark في Microsoft Fabric، يتم بدء جلسة Spark. يمكنك تحسين كفاءة استخدام موارد Spark باستخدام وضع التزامن العالي لمشاركة جلسات Spark عبر العديد من المستخدمين أو العمليات المتزامنة. يستخدم دفتر الملاحظات جلسة Spark لتنفيذها. عند تمكين وضع التزامن العالي، يمكن لعدة مستخدمين، على سبيل المثال، تشغيل التعليمات البرمجية في دفاتر الملاحظات التي تستخدم جلسة Spark نفسها، مع ضمان عزل التعليمات البرمجية لتجنب تأثر المتغيرات في دفتر ملاحظات واحد بالتعليمات البرمجية في دفتر ملاحظات آخر. يمكنك أيضا تمكين وضع التزامن العالي لوظائف Spark، مما يتيح كفاءات مماثلة لتنفيذ برنامج Spark النصي غير التفاعلي المتزامن.
لتمكين وضع التزامن العالي، استخدم قسم هندسة البيانات/العلوم في واجهة إعدادات مساحة العمل.
تلميح
لمزيد من المعلومات حول وضع التزامن العالي، راجع وضع التزامن العالي في Apache Spark for Fabric في وثائق Microsoft Fabric.
تسجيل MLFlow التلقائي
MLFlow هي مكتبة مصدر مفتوح تستخدم في أحمال عمل علم البيانات لإدارة تدريب التعلم الآلي ونشر النموذج. القدرة الرئيسية ل MLFlow هي القدرة على تسجيل تدريب النموذج وعمليات الإدارة. بشكل افتراضي، يستخدم Microsoft Fabric MLFlow لتسجيل نشاط تجربة التعلم الآلي ضمنيا دون مطالبة عالم البيانات بتضمين تعليمات برمجية صريحة للقيام بذلك. يمكنك تعطيل هذه الوظيفة في إعدادات مساحة العمل.
إدارة Spark لسعة Fabric
يمكن للمسؤولين إدارة إعدادات Spark على مستوى سعة Fabric، ما يمكنهم من تقييد إعدادات Spark وتجاوزها في مساحات العمل داخل المؤسسة.
تلميح
لمزيد من المعلومات حول إدارة تكوين Spark على مستوى سعة Fabric، راجع تكوين وإدارة إعدادات هندسة البيانات وعلوم البيانات لقدرات Fabric في وثائق Microsoft Fabric.