التشغيل السريع: تحويل البيانات باستخدام تعريف مهمة Apache Spark

في هذا التشغيل السريع، يمكنك استخدام Azure Synapse Analytics لإنشاء مسار باستخدام تعريف وظيفة Apache Spark.

المتطلبات الأساسية

بعد إنشاء مساحة عمل Azure Synapse لديك طريقتان لفتح استوديو Synapse:

  • افتح مساحة عمل Synapse في مدخل Azure. حدد Open على بطاقة Open Synapse Studio ضمن Getting started.
  • افتح Azure Synapse Analytics وقم بتسجيل الدخول إلى مساحة العمل الخاصة بك.

في هذا التشغيل السريع، نستخدم مساحة العمل المسماة "sampletest" كمثال.

الصفحة الرئيسية لـ synapse studio

قم بإنشاء مسار مع تعريف وظيفة Apache Spark

تحتوي التدفقات على التدفق المنطقي لتنفيذ مجموعة من الأنشطة. في هذا القسم، يمكنك إنشاء مسار يحتوي على نشاط تعريف وظيفة Apache Spark.

  1. انتقل إلى علامة التبويب Integrate . حدد رمز علامة الجمع بجوار رأس التدفقات وحدد Pipeline.

    إنشاء تدفق جديد

  2. في صفحة إعدادات Properties لمسار التدفق، أدخل demo لـ Name.

  3. ضمن Synapse في جزء Activities، اسحب Spark job definition على لوحة مسار التدفق.

    تعريف وظيفة Spark السحب

تعيين لوحة تعريف مهمة Apache Spark

بمجرد إنشاء تعريف وظيفة Apache Spark، يتم إرسالك تلقائيا إلى لوحة تعريف وظيفة Spark.

الإعدادات العامة

  1. حدد وحدة تعريف وظيفة الSpark على اللوحة القماشية.

  2. في علامة التبويب General، أدخل sample لـ Name.

  3. (خيار) يمكنك أيضاً إدخال وصف.

  4. المهلة: الحد الأقصى لمقدار الوقت الذي يمكن فيه تشغيل النشاط. الافتراضي سبعة أيام، وهو أيضاً الحد الأقصى لمقدار الوقت المسموح به. التنسيق على شكل D.HH:MM:SS.

  5. Retry: الحد الأقصى لعدد محاولات إعادة المحاولة.

  6. Retry interval: عدد الثواني بين كل محاولة لإعادة المحاولة.

  7. الإخراج الآمن: عند تحديده، لا يتم التقاط الإخراج من النشاط في التسجيل.

  8. الإدخال الآمن: عند التحقق، لا يتم تسجيل الإدخال من النشاط في التسجيل.

    تعريف عام لوظيفة spark

علامة تبويب الإعدادات

في هذه اللوحة، يمكنك الرجوع إلى تعريف وظيفة Spark للتشغيل.

  • قم بتوسيع قائمة تعريف وظيفة Spark، يمكنك اختيار تعريف وظيفة Apache Spark موجود. يمكنك أيضاً إنشاء تعريف وظيفة Apache Spark جديد عن طريق تحديد الزر New للإشارة إلى تعريف وظيفة Spark المراد تشغيله.

  • (اختياري) يمكنك ملء المعلومات الخاصة بتعريف مهمة Apache Spark. إذا كانت الإعدادات التالية فارغة، يتم استخدام إعدادات تعريف مهمة spark نفسه للتشغيل؛ إذا لم تكن الإعدادات التالية فارغة، فإن هذه الإعدادات تحل محل إعدادات تعريف وظيفة spark نفسه.

    الخاصية ‏‏الوصف
    ملف التعريف الرئيسي الملف الرئيسي المستخدم للوظيفة. حدد ملف PY/JAR/ZIP من التخزين لديك. يمكنك تحديد ملف التحميل لتحميل الملف إلى حساب تخزين.
    العينة: abfss://…/path/to/wordcount.jar
    مراجع من المجلدات الفرعية مسح المجلدات الفرعية من المجلد الجذر لملف التعريف الرئيسي، تتم إضافة هذه الملفات كملفات مرجعية. يتم مسح المجلدات المسماة "jars" أو "pyFiles" أو "files" أو "archives" ضوئيا، واسم المجلدات حساس لحالة الأحرف.
    اسم الفئة الرئيسية المعرف المؤهل بالكامل أو الفئة الرئيسية الموجودة في ملف التعريف الرئيسي.
    العينة: WordCount
    وسيطات سطر الأوامر يمكنك إضافة وسيطات سطر الأوامر بالنقر على الزر New. تجدر الإشارة إلى أن إضافة وسيطات سطر الأوامر تتجاوز وسيطات سطر الأوامر المحددة بواسطة تعريف مهمة Spark.
    نموذج: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    تجمع Apache Spark يمكنك تحديد تجمع Apache Spark من القائمة.
    مرجع التعليمات البرمجية ل Python ملفات التعليمات البرمجية Python الأخرى المستخدمة للرجوع إليها في ملف التعريف الرئيسي.
    وهو يدعم تمرير الملفات (.py و.py3 .zip) إلى الخاصية "pyFiles". يتجاوز خاصية "pyFiles" المعرفة في تعريف وظيفة Spark.
    الملفات المرجعية الملفات الأخرى المستخدمة كمرجع في ملف التعريف الرئيسي.
    ديناميكي تخصيص المنفذين يعيّن هذا الإعداد خاصية التخصيص الديناميكي في تكوين Spark لتخصيص منفذي تطبيق Spark.
    حد المنفذين الحد الأدنى لعدد المنفذين الذين سيتم تخصيصهم في مجموعة Spark المحددة للوظيفة.
    الحد الأقصى للمنفذين الحد الأقصى لعدد المنفذين الذين سيتم تخصيصهم في مجموعة Spark المحددة للوظيفة.
    حجم برنامج التشغيل عدد النوى والذاكرة التي سيتم استخدامها لبرنامج التشغيل في تجمع Apache Spark المحدد لهذه المهمة.
    تكوين Spark حدد قيم خصائص تكوين Spark المدرجة في المقالة: تكوين Spark - خصائص التطبيق. يمكن للمستخدمين استخدام التكوين الافتراضي والتكوين المخصص.

    إعدادات البنية الأساسية لبرنامج ربط العمليات التجارية لتعريف مهمة spark

  • يمكنك إضافة محتوى ديناميكي بالنقر على الزر Add Dynamic Content أو بالضغط على مفتاح الاختصار Alt+Shift+D . في صفحة Add Dynamic Content، يمكنك استخدام أي مجموعة من التعبيرات والوظائف ومتغيرات النظام للإضافة إلى المحتوى الديناميكي.

    إضافة محتوى ديناميكي

علامة تبويب خصائص المستخدم

يمكنك إضافة خصائص لنشاط تعريف وظيفة Apache Spark في هذه اللوحة.

خصائص المستخدم

تقدم إلى المقالات التالية للتعرف على دعم Azure Synapse Analytics: