البرنامج التعليمي: تحليل بيانات Apache Spark باستخدام BI في HDInsight

في هذا البرنامج التعليمي، يمكنك معرفة كيفية استخدام Microsoft Power BI لتصور البيانات في مجموعة Apache Spark في Azure HDInsight.

في هذا البرنامج التعليمي، تتعلم كيفية:

  • تصور بيانات Spark باستخدام Power BI

في حال لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانيّاً قبل البدء.

المتطلبات الأساسية

التحقق من قرص البيانات

يتضمن دفتر Jupyter الذي قمت بإنشائه في البرنامج التعليمي السابق التعليمات البرمجية لإنشاء hvac جدول. يستند هذا الجدول إلى ملف CSV المتوفر على جميع مجموعات HDInsight Spark في \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. استخدم الإجراء التالي للتحقق من البيانات.

  1. من دفتر Jupyter، الصق التعليمات البرمجية التالية، ثم اضغط SHIFT + ENTER. يتحقق التعليمات البرمجية من وجود الجداول.

    %%sql
    SHOW TABLES
    

    يبدو الإخراج مثل:

    Show tables in Spark.

    إذا قمت بإغلاق دفتر الملاحظات قبل بدء هذا البرنامج التعليمي، hvactemptable يتم تنظيفه، لذلك لا يتم تضمينه في الإخراج. يمكن الوصول إلى جداول الخلية المخزنة في metastore (المشار إليها بواسطة False ضمن العمود isTemporary) فقط من أدوات BI. في هذا البرنامج التعليمي، يمكنك الاتصال بجدول التكييف الذي قمت بإنشائه.

  2. الصق الرمز التالي في خلية فارغة، ثم قم بالضغط SHIFT + ENTER لتقوم بتشغيل الرمز. يتحقق التعليمات البرمجية من البيانات الموجودة في الجدول.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    يبدو الإخراج مثل:

    Show rows from hvac table in Spark.

  3. من القائمة حدد File في دفتر الملاحظات، ثم حدد lose and Halt. إيقاف تشغيل دفتر الملاحظات لتحرير الموارد.

عرض البيانات

في هذا القسم، يمكنك استخدام Power BI لإنشاء مرئيات وتقارير ولوحات معلومات من بيانات مجموعة Spark.

إنشاء تقرير في Power BI Desktop

الخطوات الأولى في العمل مع Spark هي للاتصال الكتلة في Power BI Desktop، تحميل البيانات من المجموعة وإنشاء تصور أساسي استناداً إلى تلك البيانات.

  1. افتح Power BI Desktop. أغلق شاشة البداية في حالة فتحها.

  2. من علامة التبويب الصفحة الرئيسية، انتقل إلى الحصول على مزيدمن >البيانات...

    Get data into Power BI Desktop from HDInsight Apache Spark.

  3. أدخل Spark في مربع البحث، وحدد Azure HDInsight Spark، ثم حدد الاتصال.

    Get data into Power BI from Apache Spark BI.

  4. أدخل URL الكتلة (في mysparkcluster.azurehdinsight.net النموذج) في مربع نص الخادم.

  5. ضمن وضع اتصال البيانات، حدد DirectQuery. ثم حدد موافق.

    يمكنك استخدام وضع اتصال البيانات مع Spark. إذا كنت تستخدم DirectQuery، تنعكس التغييرات في التقارير دون تحديث مجموعة البيانات بأكملها. إذا قمت باستيراد البيانات، يجب تحديث مجموعة البيانات لمشاهدة التغييرات. لمزيد من المعلومات حول كيفية ومتى تستخدم DirectQuery، راجع استخدام DirectQuery في Power BI.

  6. أدخل معلومات حساب تسجيل الدخول HDInsight، ثم حدد الاتصال. اسم تسجيل الحساب الافتراضي هو admin.

  7. حدد hvac الجدول وانتظر لمشاهدة معاينة البيانات، ثم حدد تحميل.

    Spark cluster user name and password.

    يمتلك Power BI Desktop المعلومات التي يحتاجها للاتصال بمجموعة Spark وتحميل البيانات من hvac الجدول. يتم عرض الجدول وأعمدته في جزء الحقول.

  8. تصور الفرق بين درجة الحرارة المستهدفة ودرجة الحرارة الفعلية لكل مبنى:

    1. في جزء المرئيات، حدد مخطط المنطقة.

    2. اسحب الحقل BuildingID إلى المحور، واسحب الحقلين ActualTemp وTargetTemp إلى القيمة.

      add value columns.

      المخطط يشبه ما يلي:

      area graph sum.

      افتراضياً تظهر المرئيات مجموع ActualTemp وTargetTemp. حدد السهم لأسفل بجوار ActualTemp وTragetTemp في جزء المرئيات، يمكنك رؤية Sum محدداً.

    3. حدد السهمين السفليين بجوار ActualTemp وTragetTemp في جزء المرئيات، وحدد متوسط للحصول على متوسط درجات الحرارة الفعلية والهدفية لكل مبنى.

      average of values.

      يجب أن يكون تصور البيانات مشابهاً للتصور في لقطة الشاشة. حرك المؤشر فوق المرئيات للحصول على تلميحات الأدوات باستخدام البيانات ذات الصلة.

      area graph .png " alt-text="area graph." border="true":::

  9. انتقل إلى حفظ الملف، أدخل اسم الملف، ثم >حدد BuildingTemperatureحفظ.

انشر التقرير إلى خدمة Power BI (اختياري)

تتيح لك خدمة Power BI مشاركة التقارير ولوحات المعلومات عبر مؤسستك. في هذا القسم، يمكنك أولاً نشر مجموعة البيانات والتقرير. ثم قم تثبيت التقرير بلوحة معلومات. تستخدم لوحات المعلومات عادة للتركيز على مجموعة فرعية من البيانات في تقرير. لديك مرئية واحدة فقط في التقرير، ولكن لا يزال من المفيد الانتقال عبر الخطوات.

  1. افتح Power BI Desktop.

  2. في علامة تبويب الصفحة الرئيسية، حدد "Publish".

    Publish from Power BI Desktop. سطح المكتب" border="true":::

  3. حدد مساحة عمل لنشر مجموعة البيانات والإبلاغ عنها، ثم حدد تحديد. في الصورة التالية، يتم تحديد مساحة العمل الافتراضية.

    Select workspace to publish dataset and report to.

  4. بعد نجاح النشر، حدد فتح 'BuildingTemperature.pbix' في Power BI.

    Publish success, click to enter credentials.

  5. في خدمة Power BI، حدد إدخال بيانات الاعتماد.

    Enter credentials in Power BI service. "border="true":::

  6. حدد "Edit credentials".

    Edit credentials in Power BI service.

  7. أدخل معلومات حساب تسجيل الدخول HDInsight، ثم حدد الاتصال. اسم تسجيل الحساب الافتراضي هو admin.

    Sign in to Spark cluster. Spark cluster" border="true":::

  8. في الجزء الأيمن، انتقل إلى مساحات العمل>تقارير مساحة العمل الخاصة بي،>ثم حدد BuildingTemperature.

    Report listed under reports in left pane.

    يجب أن تشاهد أيضا BuildingTemperature المسرودة ضمن DATASETS في الجزء الأيمن.

    المرئية التي قمت بإنشائها في Power BI Desktop متوفرة الآن في خدمة Power BI.

  9. مرر المؤشر فوق المرئيات، ثم حدد أيقونة الدبوس في الزاوية العلوية اليمنى.

    Report in the Power BI service.

  10. حدد "لوحة معلومات جديدة"، وأدخل Building temperature الاسم، ثم حدد تثبيت.

    Pin to new dashboard. إلى لوحة معلومات جديدة" border="true":::

  11. في التقرير، حدد الانتقال إلى لوحة المعلومات.

يتم تثبيت المرئي الخاص بك إلى لوحة المعلومات - يمكنك إضافة صور أخرى إلى التقرير وتثبيتها على لوحة المعلومات نفسها. لمزيد من المعلومات حول التقارير ولوحات المعلومات، راجع التقارير في Power BI ولوحات المعلومات في Power BI.

تنظيف الموارد

بعد إكمال البرنامج التعليمي، قد يلزم حذف الكتلة. من خلال HDInsight، يتم تخزين البيانات الخاصة بك في Azure Storage؛ لذا يمكنك حذف المجموعة بأمان عندما لا تكون قيد الاستخدام. كما يتم تحصيل رسوم منك مقابل مجموعة HDInsight، حتى عندما لا تكون قيد الاستخدام. نظراً لأن رسوم نظام المجموعة تزيد عدة مرات عن رسوم التخزين، فمن المنطقي اقتصادياً حذف أنظمة المجموعات عندما لا تكون قيد الاستخدام.

لحذف نظام المجموعة، يرجى الرجوع إلى حذف نظام مجموعة HDInsight باستخدام متصفحكَ أو PowerShell أو Azure CLI .

الخطوات التالية

في هذا البرنامج التعليمي، تعلمت معرفة كيفية استخدام Microsoft Power BI لتصور البيانات في مجموعة Apache Spark في Azure HDInsight. تقدم إلى المقالة التالية لترى أنه يمكنك إنشاء تطبيق تعلم آلي.