تمرين- تنفيذ الاستعلامات على شبكة نظام المجموعة HDInsight Spark

مكتمل

في هذا التمرين، يمكنك معرفة كيفية إنشاء إطار بيانات من ملف csv، وكيفية تشغيل استعلامات SQL Spark التفاعلية مقابل شبكة نظام المجموعة Apache Spark في Azure HDInsight. في Spark، يعتبر إطار البيانات بمثابة مجموعة موزعة من البيانات المنظمة في أعمدة مسمّاة. ويعادل إطار البيانات من الناحية المفاهيمية جدولاً في قاعدة بيانات علائقية أو إطار بيانات في R/Python.

في هذا البرنامج التعليمي، تتعلم كيفية:

  • إنشاء إطار بيانات من ملف csv
  • تشغيل الاستعلامات في إطار البيانات

إنشاء إطار بيانات من ملف csv

يحتوي نموذج ملف csv التالي على معلومات درجة الحرارة الخاصة بالبنية ويتم تخزينه في نظام الملفات بشبكة نظام المجموعة Spark.

A sample dataset

  1. لصق الرمز التالي في خلية فارغة من مفكرة Jupyter ثم اضغط «SHIFT + ENTER» لتشغيل الرمز. يستورد الرمز الأنواع المطلوبة لهذا التصور

    from pyspark.sql import *
    
    from pyspark.sql. types import *
    
  2. وعند تشغيل استعلام تفاعلي في Jupyter، تعرض نافذة متصفح الويب أو التسمية التوضيحية لعلامة التبويب الحالة (مشغول) إلى جانب عنوان دفتر الملاحظات. وستتمكن بعدها برؤية دائرة صلبة بجوار نص PySpark في الزاوية العلوية اليمنى. بعد اكتمال المهمة، يتم تغييره إلى دائرة فارغة.

    Running Python in Jupyter

  3. احرص على تشغيل التعليمات البرمجية التالية لإنشاء إطار بيانات وجدول مؤقت ( hvac ) عن طريق تشغيل التعليمات البرمجية التالية.

    # Create a dataframe and table from sample data
    
    csvFile = spark.read.csv ('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv', header=True, inferSchema=True)
    
    csvFile.write. saveAsTable("hvac")
    

تشغيل الاستعلامات في إطار البيانات

بمجرد إنشاء الجدول، يمكنك تشغيل الاستعلام التفاعلي على البيانات.

  1. تشغيل الرمز التالي في خلية فارغة من المفكرة:

    %%sql
    
    SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
    

    يتم عرض المخرجات الجدولية التالية.

    Dataset results in Jupyter

    يمكنك أيضًا مشاهدة النتائج في المؤثرات البصرية الأخرى أيضًا. لمشاهدة الرسم البياني للمساحة الخاصة بنفس المخرجات، حدد Area، ومن ثم عيّن القيم الأخرى على النحو المبين.

    Dataset visualization in Jupyter

  2. من شريط القوائم «notebook»، انتقل إلى File > Save and Checkpoint.

  3. يمكنك إيقاف تشغيل المفكرة لتحرير موارد نظام المجموعة: من شريط القوائم «notebook»، انتقل إلى File > Close and Halt.