تمرين- تنفيذ الاستعلامات على شبكة نظام المجموعة HDInsight Spark

8 دقائق

في هذا التمرين، يمكنك معرفة كيفية إنشاء إطار بيانات من ملف csv، وكيفية تشغيل استعلامات SQL Spark التفاعلية مقابل شبكة نظام المجموعة Apache Spark في Azure HDInsight. في Spark، يعتبر إطار البيانات بمثابة مجموعة موزعة من البيانات المنظمة في أعمدة مسمّاة. ويعادل إطار البيانات من الناحية المفاهيمية جدولاً في قاعدة بيانات علائقية أو إطار بيانات في R/Python.

في هذا البرنامج التعليمي، تتعلم كيفية:

إنشاء إطار بيانات من ملف csv
تشغيل الاستعلامات في إطار البيانات

إنشاء إطار بيانات من ملف csv

يحتوي نموذج ملف csv التالي على معلومات درجة الحرارة الخاصة بالبنية ويتم تخزينه في نظام الملفات بشبكة نظام المجموعة Spark.

A sample dataset

لصق الرمز التالي في خلية فارغة من مفكرة Jupyter ثم اضغط «SHIFT + ENTER» لتشغيل الرمز. يستورد الرمز الأنواع المطلوبة لهذا التصور
```
from pyspark.sql import *

from pyspark.sql. types import *
```
وعند تشغيل استعلام تفاعلي في Jupyter، تعرض نافذة متصفح الويب أو التسمية التوضيحية لعلامة التبويب الحالة (مشغول) إلى جانب عنوان دفتر الملاحظات. وستتمكن بعدها برؤية دائرة صلبة بجوار نص PySpark في الزاوية العلوية اليمنى. بعد اكتمال المهمة، يتم تغييره إلى دائرة فارغة.
احرص على تشغيل التعليمات البرمجية التالية لإنشاء إطار بيانات وجدول مؤقت ( hvac ) عن طريق تشغيل التعليمات البرمجية التالية.
```
# Create a dataframe and table from sample data

csvFile = spark.read.csv ('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv', header=True, inferSchema=True)

csvFile.write. saveAsTable("hvac")
```

تشغيل الاستعلامات في إطار البيانات

بمجرد إنشاء الجدول، يمكنك تشغيل الاستعلام التفاعلي على البيانات.

تشغيل الرمز التالي في خلية فارغة من المفكرة:
```
%%sql

SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
```
يتم عرض المخرجات الجدولية التالية.

يمكنك أيضًا مشاهدة النتائج في المؤثرات البصرية الأخرى أيضًا. لمشاهدة الرسم البياني للمساحة الخاصة بنفس المخرجات، حدد Area، ومن ثم عيّن القيم الأخرى على النحو المبين.
من شريط القوائم «notebook»، انتقل إلى File > Save and Checkpoint.
يمكنك إيقاف تشغيل المفكرة لتحرير موارد نظام المجموعة: من شريط القوائم «notebook»، انتقل إلى File > Close and Halt.

متابعة

إنشاء إطار بيانات من ملف csv

تشغيل الاستعلامات في إطار البيانات

الملاحظات