البرنامج التعليمي: تحليل بيانات Apache Spark باستخدام BI في HDInsight

في هذا البرنامج التعليمي، يمكنك معرفة كيفية استخدام Microsoft Power BI لتصور البيانات في مجموعة Apache Spark في Azure HDInsight.

في هذا البرنامج التعليمي، تتعلم كيفية:

  • تصور بيانات Spark باستخدام Power BI

في حال لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانيّاً قبل البدء.

المتطلبات الأساسية

التحقق من قرص البيانات

يتضمن دفتر Jupyter الذي قمت بإنشائه في البرنامج التعليمي السابق التعليمات البرمجية لإنشاء hvac جدول. يستند هذا الجدول إلى ملف CSV المتوفر على جميع مجموعات HDInsight Spark في \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. استخدم الإجراء التالي للتحقق من البيانات.

  1. من دفتر Jupyter، الصق التعليمات البرمجية التالية، ثم اضغط SHIFT + ENTER. يتحقق التعليمات البرمجية من وجود الجداول.

    %%sql
    SHOW TABLES
    

    يبدو الإخراج مثل:

    لقطة شاشة تعرض الجداول في Spark.

    إذا قمت بإغلاق دفتر الملاحظات قبل بدء هذا البرنامج التعليمي، hvactemptable يتم تنظيفه، لذلك لا يتم تضمينه في الإخراج. يمكن الوصول إلى جداول الخلية المخزنة في metastore (المشار إليها بواسطة False ضمن العمود isTemporary) فقط من أدوات BI. في هذا البرنامج التعليمي، يمكنك الاتصال بجدول التكييف الذي قمت بإنشائه.

  2. الصق الرمز التالي في خلية فارغة، ثم قم بالضغط SHIFT + ENTER لتقوم بتشغيل الرمز. يتحقق التعليمات البرمجية من البيانات الموجودة في الجدول.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    يبدو الإخراج مثل:

    لقطة شاشة تعرض صفوفا من جدول hvac في Spark.

  3. من القائمة حدد File في دفتر الملاحظات، ثم حدد lose and Halt. إيقاف تشغيل دفتر الملاحظات لتحرير الموارد.

عرض البيانات

في هذا القسم، يمكنك استخدام Power BI لإنشاء مرئيات وتقارير ولوحات معلومات من بيانات مجموعة Spark.

إنشاء تقرير في Power BI Desktop

الخطوات الأولى في العمل مع Spark هي للاتصال الكتلة في Power BI Desktop، تحميل البيانات من المجموعة وإنشاء تصور أساسي استناداً إلى تلك البيانات.

  1. افتح Power BI Desktop. أغلق شاشة البداية في حالة فتحها.

  2. من علامة التبويب الصفحة الرئيسية، انتقل إلى الحصول على مزيدمن >البيانات...

    لقطة شاشة تعرض الحصول على البيانات في Power BI Desktop من HDInsight Apache Spark.

  3. أدخل Spark في مربع البحث، وحدد Azure HDInsight Spark، ثم حدد الاتصال.

    لقطة شاشة تعرض الحصول على البيانات في Power BI من Apache Spark BI.

  4. أدخل URL الكتلة (في mysparkcluster.azurehdinsight.net النموذج) في مربع نص الخادم.

  5. ضمن وضع اتصال البيانات، حدد DirectQuery. ثم حدد موافق.

    يمكنك استخدام وضع اتصال البيانات مع Spark. إذا كنت تستخدم DirectQuery، تنعكس التغييرات في التقارير دون تحديث مجموعة البيانات بأكملها. إذا قمت باستيراد البيانات، يجب تحديث مجموعة البيانات لمشاهدة التغييرات. لمزيد من المعلومات حول كيفية ومتى تستخدم DirectQuery، راجع استخدام DirectQuery في Power BI.

  6. أدخل معلومات حساب تسجيل الدخول HDInsight، ثم حدد الاتصال. اسم تسجيل الحساب الافتراضي هو admin.

  7. حدد hvac الجدول وانتظر لمشاهدة معاينة البيانات، ثم حدد تحميل.

    لقطة شاشة تعرض اسم مستخدم نظام مجموعة Spark وكلمة المرور.

    يمتلك Power BI Desktop المعلومات التي يحتاجها للاتصال بمجموعة Spark وتحميل البيانات من hvac الجدول. يتم عرض الجدول وأعمدته في جزء الحقول.

  8. تصور الفرق بين درجة الحرارة المستهدفة ودرجة الحرارة الفعلية لكل مبنى:

    1. في جزء المرئيات، حدد مخطط المنطقة.

    2. اسحب الحقل BuildingID إلى المحور، واسحب الحقلين ActualTemp وTargetTemp إلى القيمة.

      لقطة شاشة تعرض أعمدة القيمة الإضافية.

      المخطط يشبه ما يلي:

      لقطة شاشة تعرض مجموع الرسم البياني للمنطقة.

      افتراضياً تظهر المرئيات مجموع ActualTemp وTargetTemp. حدد السهم لأسفل بجوار ActualTemp وTragetTemp في جزء المرئيات، يمكنك رؤية Sum محدداً.

    3. حدد السهمين السفليين بجوار ActualTemp وTragetTemp في جزء المرئيات، وحدد متوسط للحصول على متوسط درجات الحرارة الفعلية والهدفية لكل مبنى.

      لقطة شاشة تعرض متوسط القيم.

      يجب أن يكون تصور البيانات مشابهاً للتصور في لقطة الشاشة. حرك المؤشر فوق المرئيات للحصول على تلميحات الأدوات باستخدام البيانات ذات الصلة.

      لقطة شاشة تعرض الرسم البياني للمنطقة

  9. انتقل إلى حفظ الملف، أدخل اسم الملف، ثم >حدد BuildingTemperatureحفظ.

انشر التقرير إلى خدمة Power BI (اختياري)

تتيح لك خدمة Power BI مشاركة التقارير ولوحات المعلومات عبر مؤسستك. في هذا القسم، يمكنك أولاً نشر مجموعة البيانات والتقرير. ثم قم تثبيت التقرير بلوحة معلومات. تستخدم لوحات المعلومات عادة للتركيز على مجموعة فرعية من البيانات في تقرير. لديك مرئية واحدة فقط في التقرير، ولكن لا يزال من المفيد الانتقال عبر الخطوات.

  1. افتح Power BI Desktop.

  2. في علامة تبويب الصفحة الرئيسية، حدد "Publish".

    لقطة شاشة تعرض النشر من Power BI Desktop.

  3. حدد مساحة عمل لنشر مجموعة البيانات والإبلاغ عنها، ثم حدد تحديد. في الصورة التالية، يتم تحديد مساحة العمل الافتراضية.

    لقطة شاشة تعرض مساحة عمل محددة لنشر مجموعة البيانات والإبلاغ إليها.

  4. بعد نجاح النشر، حدد فتح 'BuildingTemperature.pbix' في Power BI.

    لقطة شاشة تظهر نجاح النشر، انقر لإدخال بيانات الاعتماد.

  5. في خدمة Power BI، حدد إدخال بيانات الاعتماد.

    لقطة شاشة توضح كيفية إدخال بيانات الاعتماد في خدمة Power BI.

  6. حدد "Edit credentials".

    لقطة شاشة تعرض تحرير بيانات الاعتماد في خدمة Power BI.

  7. أدخل معلومات حساب تسجيل الدخول HDInsight، ثم حدد الاتصال. اسم تسجيل الحساب الافتراضي هو admin.

    لقطة شاشة تعرض تسجيل الدخول إلى مجموعة Spark.

  8. في الجزء الأيمن، انتقل إلى مساحات العمل>تقارير مساحة العمل الخاصة بي،>ثم حدد BuildingTemperature.

    لقطة شاشة تعرض التقرير المدرج ضمن التقارير في الجزء الأيمن.

    يجب أن تشاهد أيضا BuildingTemperature المسرودة ضمن DATASETS في الجزء الأيمن.

    المرئية التي قمت بإنشائها في Power BI Desktop متوفرة الآن في خدمة Power BI.

  9. مرر المؤشر فوق المرئيات، ثم حدد أيقونة الدبوس في الزاوية العلوية اليمنى.

    لقطة شاشة تعرض التقرير في خدمة Power BI.

  10. حدد "لوحة معلومات جديدة"، وأدخل Building temperature الاسم، ثم حدد تثبيت.

    لقطة شاشة تعرض تثبيت بلوحة معلومات جديدة.

  11. في التقرير، حدد الانتقال إلى لوحة المعلومات.

يتم تثبيت المرئي الخاص بك إلى لوحة المعلومات - يمكنك إضافة صور أخرى إلى التقرير وتثبيتها على لوحة المعلومات نفسها. لمزيد من المعلومات حول التقارير ولوحات المعلومات، راجع التقارير في Power BI ولوحات المعلومات في Power BI.

تنظيف الموارد

بعد إكمال البرنامج التعليمي، قد يلزم حذف الكتلة. من خلال HDInsight، يتم تخزين البيانات الخاصة بك في Azure Storage؛ لذا يمكنك حذف المجموعة بأمان عندما لا تكون قيد الاستخدام. كما يتم تحصيل رسوم منك مقابل مجموعة HDInsight، حتى عندما لا تكون قيد الاستخدام. نظراً لأن رسوم نظام المجموعة تزيد عدة مرات عن رسوم التخزين، فمن المنطقي اقتصادياً حذف أنظمة المجموعات عندما لا تكون قيد الاستخدام.

لحذف نظام المجموعة، يرجى الرجوع إلى حذف نظام مجموعة HDInsight باستخدام متصفحكَ أو PowerShell أو Azure CLI .

الخطوات التالية

في هذا البرنامج التعليمي، تعلمت معرفة كيفية استخدام Microsoft Power BI لتصور البيانات في مجموعة Apache Spark في Azure HDInsight. تقدم إلى المقالة التالية لترى أنه يمكنك إنشاء تطبيق تعلم آلي.