التشغيل السريع : إنشاء مجموعة ApacheSpark serverless بلا خادم في Azure Synapse Analytics باستخدام أدوات الويب

مقالة
03/25/2023

في التشغيل السريع، ستتعرف على كيفية إنشاء مجموعة Apache Spark بلا خادم في AzureSynapse باستخدام أدوات الويب. ثم تتعلم الاتصال بمجموعة Apache Spark وتشغيل Spark SQL الاستعلامات مقابل الملفات والجداول. تمكن Apache Spark من تحليل البيانات بسرعة والحوسبة العنقودية باستخدام المعالجة داخل الذاكرة. للحصول على معلومات حول Spark في Azure Synapse، انظر لمحة عامة: Apache Spark على Azure Synapse.

هام

يتم تصنيف الفوترة لمثيلات Spark في الدقيقة، سواء أكنت تستخدمها أم لا. تأكد من إيقاف تشغيل مثيل Spark بعد الانتهاء من استخدامه، أو تعيين مهلة قصيرة. لمزيد من المعلومات، راجع قسم تنظيف الموارد من هذه المقالة.

في حال لم يكن لديك اشتراك Azure، يمكنك إنشاء حساب مجاني قبل البدء.

المتطلبات الأساسية

ستحتاج إلى اشتراك Azure. إذا لزم الأمر، قم بإنشاء حساب Azure مجاني
مساحة عمل Synapse Analytics
مجموعة ApacheSpark بلا خادم

تسجيل الدخول إلى ⁧⁩مدخل Microsoft Azure⁧⁩.

إذا لم يكن لديك اشتراك Azure، ⁦⁩يتعين إنشاء حساب Azure مجاني⁦⁩ قبل أن تبدأ.

إنشاء دفتر ملاحظات

دفتر الملاحظات هو بيئة تفاعلية تدعم لغات الكمبيوتر المختلفة. يسمح لك دفتر الملاحظات بالتفاعل مع بياناتك، والجمع بين التعليمة البرمجية مع markdown والنص وتنفيذ مرئيات بسيطة.

من مدخل Microsoft Azure، اعرض مساحة العمل التي تريد استخدامها لـ Azure Synapse واختر Launch Synapse Studio.
عند تشغيل Synapse Studio، اخترDevelop. ثم اختر أيقونة " + " لإضافة مورد جديد.
من هناك، اخترNotebook. يتم إنشاء دفتر ملاحظات جديد وفتحه باسم تم إنشاؤه تلقائياً.
في نافذة Properties، وفّر اسم لدفتر الملاحظات.
على شريط الأدوات، حدد Publish.
إذا كان هناك تجمع Apache Spark واحد فقط في مساحة العمل، فسيتم تحديده بشكل افتراضي. استخدم القائمة المنسدلة لتحديد تجمع Apache Spark الصحيح إذا لم يتم تحديد أي تجمع.
حدد Add code. اللغة الافتراضية هي Pyspark. ستستخدم مزيج من Pyspark وSSPSS، ومن ثمَّ فإن الخيار الافتراضي ملائم. اللغات الأخرى المدعومة هي Scalaا و‎.NET لـ Spark.
بعد ذلك تقوم بإنشاء عنصر Spark DataFrame بسيط للمعالجة. في هذه الحالة، يمكنك إنشاؤه من التعليمة البرمجية. يوجد ثلاثة صفوف وثلاثة أعمدة:
```
new_rows = [('CA',22, 45000),("WA",35,65000) ,("WA",50,85000)]
demo_df = spark.createDataFrame(new_rows, ['state', 'age', 'salary'])
demo_df.show()
```
الآن تشغيل الخلية باستخدام إحدى الطرق التالية:
- اضغط SHIFT+ ENTER.
- حدد أيقونة التشغيل الزرقاء على يمين الخلية.
- اختر زرRun all على شريط الأدوات.
إذا لم يكن مثيل مجموعة Apache Spark قيد التشغيل بالفعل، يتم تشغيله تلقائيا. يمكنك أن ترى حالة مثيل تجمع Apache Spark تحت الخلية التي تقوم بتشغيلها وأيضاً على جزء الحالة في الجزء السفلي من دفتر الملاحظات. اعتماداً على حجم المجموعة، يجب أن يستغرق البدء 2-5 دقائق. بمجرد انتهاء تشغيل التعليمة البرمجية، تعرض المعلومات الموجودة أسفل الخلية عرض المدة التي استغرقها التشغيل وتنفيذها. في خلية الإخراج، سترى الإخراج.
البيانات موجودة الآن في DataFrame، من هناك، يمكنك استخدام البيانات بطرق عديدة مختلفة. ستكون بحاجة إلى نماذج مختلفة لهذا التشغيل السريع.
أدخل التعليمة البرمجية أدناه في خلية أخرى وشغلها، وهذا بإنشاء جدول Spark وCSV وملف Parquet مع نسخ من البيانات:
```
 demo_df.createOrReplaceTempView('demo_df')
 demo_df.write.csv('demo_df', mode='overwrite')
 demo_df.write.parquet('abfss://<<TheNameOfAStorageAccountFileSystem>>@<<TheNameOfAStorageAccount>>.dfs.core.windows.net/demodata/demo_df', mode='overwrite')
```
إذا كنت تستخدم مستكشف التخزين، فمن الممكن أن ترى تأثير طريقتين مختلفتين لكتابة الملف المستخدم أعلاه. عند عدم تحديد أي نظام ملفات ثم يتم استخدام الافتراضي، في هذه الحالة default>user>trusted-service-user>demo_df. يتم حفظ البيانات إلى موقع نظام الملفات المحدد.

لاحظ في كل من "csv" وتنسيقات "parquet"، يتم إنشاء عمليات الكتابة دليل مع العديد من الملفات المقسمة.

تشغيل بيانات Spark SQL

تُعدStructured Query Language (SQL) هي اللغة الأكثر شيوعا والأكثر استخداماً للاستعلام عن البيانات وتعريفها. تعمل عوامل Spark SQL كامتداد لـ Apache Spark لمعالجة البيانات المنظمة، باستخدام بناء الجملة SQL المألوف.

الصق الرمز التالي في خلية فارغة، ثم قم بتشغيل الرمز. يسرد الأمر الجداول الموجودة في المجموعة.
```
%%sql
SHOW TABLES
```
عند استخدام دفتر ملاحظات باستخدام مجموعة Azure Synapse Apache Spark، ستحصل على إعداد مسبق sqlContext يمكنك استخدامه لتشغيل الاستعلامات باستخدام Spark SQL. %%sql يُساعد دفتر الملاحظات باستخدام الإعداد المسبق sqlContext لتشغيل الاستعلام. يسترد الاستعلام أعلى 10 صفوف من جدول نظام الذي يأتي مع جميع مجموعات Azure Synapse Apache Spark بشكل افتراضي.
تشغيل استعلام آخر لمشاهدة البيانات في demo_df.
```
%%sql
SELECT * FROM demo_df
```
تُنتج التعليمة البرمجية خليتي إخراج، واحدة تحتوي على نتائج البيانات الأخرى، التي تُبين طريقة عرض المهمة.

بشكل افتراضي، تعرض طريقة عرض النتائج شبكة بيانات. ولكن، يُوجد مبدل عرض أسفل الشبكة يسمح للعرض بالتبديل بين طرق عرض شبكة البيانات والرسم البياني.
في مبدل العرض، حدد Chart.
حدد رمز View options من أقصى الجانب الأيمن.
في حقل Chart type، حدد "مخطط الشريط".
في حقل المحور س حدد "الحالة".
في حقل العمود المحور ص حدد "راتب".
في الحقل تجميع حدد "AVG".
اختر ⁧⁩تطبيق⁧⁩.
من الممكن الحصول على نفس تجربة تشغيل SQL ولكن دون الحاجة إلى تبديل اللغات. يمكنك القيام بذلك عن طريق استبدال الخلية SQL أعلاه مع هذه الخلية PySpark تُعد تجربة الإخراج هي نفسها لأنه يتم استخدام الأمر العرض:
```
display(spark.sql('SELECT * FROM demo_df'))
```
كان لكل من الخلايا التي تم تنفيذها مسبقاً الخيار للانتقال إلى "History Server" وMonitoring. يؤدي تحديد الروابط إلى نقلك إلى أجزاء مختلفة من تجربة المستخدم.

ملاحظة

تعتمد بعض الوثائق الرسمية لـ Apache Spark على استخدام وحدة تحكم Spark، والتي لا تتوفر على Synapse Spark. استخدم دفتر الملاحظات أو تجارب IntelliJ بدلاً من ذلك.

تنظيف الموارد

يحفظ Azure Synapse بياناتك في تخزين Azure Data Lake. يمكنك السماح بأمان إيقاف تشغيل مثيل Spark عندما لا يكون قيد الاستخدام. تتم محاسبتك على مجموعة Apache Spark بلا خادم طالما أنه قيد التشغيل، حتى عندما لا يكون قيد الاستخدام.

نظراً لأن رسوم المجموعة تزيد عدة مرات عن رسوم التخزين، فمن المنطقي اقتصادياً السماح بإغلاق مثيلات Spark عندما لا تكون قيد الاستخدام.

لضمان إيقاف تشغيل مثيل Spark، قم بإنهاء أي جلسات عمل متصلة (دفاتر ملاحظات). يتم إيقاف تشغيل المجموعة عند الوصول إلى وقت الخمول المحدد في مجموعة Apache Spark. يمكنك أيضا تحديد إنهاء جلسة العمل من شريط المعلومات في أسفل دفتر الملاحظات.

الخطوات التالية

في التشغيل السريع هذا، تعلمت كيفية إنشاء مجموعة Apache Spark بلا خادم وتشغيل استعلام SQL Spark أساسي.