البدء السريع: إنشاء مجموعة من البرامج المترابطة لـ Apache Spark في HDInsight باستخدام بوابة Azure

في هذا البدء السريع، يمكنك استخدام بوابة Azure لإنشاء مجموعة من البرامج المترابطة لـ Apache Spark في HDInsight. بعدها تنشئ دفتر ملاحظات Jupyter وتستخدمه لتشغيل الاستعلامات Spark SQL مقابل جداول Apache Hive. Azure HDInsight هي خدمة تحليلات مدارة كاملة الطيف ومفتوحة المصدر للمؤسسات. يتيح إطار عمل Apache Spark لـ HDInsight تحليلات البيانات السريعة والحوسبة العنقودية باستخدام المعالجة داخل الذاكرة. دفتر ملاحظات Jupyter يسمح لك بالتفاعل مع بياناتك، ودمج الرمز مع نص من مرجع markdown، والقيام بتصور بسيط.

للاطلاع على شرح متعمق للتكوينات المتوفرة، يرجى الاطلاع على إعداد نظام المجموعات المترابطة في HDInsight. للاطلاع على معلومات إضافية بخصوص استخدام البوابة في إنشاء نظام مجموعات، يرجى الاطلاع على Create clusters in the portal.

إذا كنت تستخدم مجموعات متعددة معا، فقد تحتاج إلى إنشاء شبكة ظاهرية؛ إذا كنت تستخدم نظام مجموعة Spark، فقد ترغب أيضا في استخدام الاتصال or لمستودع Hive. لمزيد من المعلومات، راجع تخطيط شبكة ظاهرية لـ Azure HDInsightوتكامل Apache Spark وApache Hive مع Apache Hive Warehouse Connector.

هام

يتم تصنيف الفوترة لمجموعات HDInsight في الدقيقة، سواء أكنت تستخدمها أم لا. تأكد من حذف نظام المجموعة بعد الانتهاء من استخدامه. لمزيد من المعلومات، راجع قسم تنظيف الموارد من هذه المقالة.

المتطلبات الأساسية

حساب Azure مع اشتراك نشط. أنشئ حساباً مجاناً.

إنشاء نظام مجموعة Apache Spark في HDInsight

يمكنك استخدام بوابة Azure لإنشاء مجموعة HDInsight تستخدم نقط تخزين Azure كمخزن المجموعة. لمزيد من المعلومات حول استخدام Data Lake Storage Gen2، راجع التشغيل السريع: إعداد نظام المجموعات في HDInsight.

  1. قم بتسجيل الدخول إلى بوابة Azure.

  2. في القائمة اليمنى، تحديد + إنشاء مورد.

    Screenshot of Azure portal how to create a resource.

  3. تحديد التحليلات>Azure HDInsight للانتقال إلى صفحة إنشاء نظام مجموعة HDInsight.

  4. في علامة التبويب Basics، وفر المعلومات التالية:

    الخاصية ‏‏الوصف
    الاشتراك من القائمة المنسدلة، قم بتحديد اشتراك Azure المستخدم في نظام المجموعة.
    مجموعة الموارد من القائمة المنسدلة، حدد مجموعة الموارد الموجودة، أو تحديد إنشاء جديد.
    اسم شبكة نظام المجموعة أدخل اسمًا فريدًا عالميًا.
    المنطقة من القائمة المنسدلة، حدد المنطقة التي أنشئت فيها المجموعة.
    مناطق التوفّر اختياري - حدد منطقة توفر لنشر نظام المجموعة
    نوع شبكة نظام المجموعة حدد نوع نظام المجموعة لفتح قائمة. من القائمة، حدد Spark.
    إصدار شبكة نظام المجموعة سيتم ملء هذا الحقل تلقائيًا بالإصدار الافتراضي بمجرد تحديد نوع شبكة نظام المجموعة.
    اسم المستخدم لتسجيل الدخول إلى المجموعة أدخل اسم المستخدم لتسجيل الدخول إلى المجموعة. الاسم الافتراضي هو المسؤول. يمكنك استخدام هذا الحساب لتسجيل الدخول إلى Jupyter Notebook لاحقا في التشغيل السريع.
    كلمة مرور لتسجيل الدخول إلى المجموعة أدخل كلمة المرور لتسجيل الدخول إلى المجموعة.
    اسم مستخدم Shell (SSH) الآمن. أدخل اسم المستخدم SSH. اسم المستخدِم SSH المستخدَم في هذا البدء السريع هو sshuser. بشكل افتراضي، يشارك هذا الحساب نفس كلمة المرور كحساب اسم المستخدم تسجيل الدخول للمجموعة.

    Screenshot shows Create HDInsight cluster with the Basics tab selected.

  5. حدد Next: Storage >> للمتابعة إلى صفحة Storage.

  6. ضمن»التخزين»، توفير القيم التالية:

    الخاصية ‏‏الوصف
    نوع التخزين الأساسي استخدم القيمة الافتراضيةAzure Storage.
    أسلوب التحديد استخدم القيمة الافتراضية Select from list.
    حساب التخزين الأساسي استخدم القيمة التي يتم ملؤها تلقائيًا.
    الحاوية استخدم القيمة التي يتم ملؤها تلقائيًا.

    Screenshot shows Create HDInsight cluster with the Storage tab selected.

    حدد «مراجعة + إنشاء» للمتابعة.

  7. ضمن «مراجعة + إنشاء»، حدد «إنشاء». يستغرق إنشاء شبكة نظام المجموعة حوالي 20 دقيقة. يجب إنشاء شبكة نظام المجموعة قبل أن تتمكن من المتابعة إلى جلسة العمل التالية.

إذا واجهت مشكلة في إنشاء نظام مجموعات HDInsight، فقد يكون السبب أنك لا تملك الأذونات والصلاحيات المناسبة للقيام بذلك. لمزيد من المعلومات، راجع متطلبات التحكم في الوصول.

إنشاء تطبيق دفتر الملاحظات Jupyter Notebook

يعتبر Jupyter Notebook في واقع الأمر إطاراً لتدوين الملاحظات التفاعلية التي تدعم مختلف لغات البرمجة. يسمح لك دفتر الملاحظات بالتفاعل مع بياناتك، والجمع بين التعليمات البرمجية ونص تخفيض السعر وإجراء تصورات بسيطة.

  1. من متصفح ويب، انتقل إلى https://CLUSTERNAME.azurehdinsight.net/jupyter، حيث CLUSTERNAME هو اسم نظام المجموعة. في حالة المطالبة بإدخال بيانات تسجيل الدخول في شبكة نظام المجموعة لشبكة نظام المجموعة.

  2. حدد جديد>PySparkلإنشاء دفتر ملاحظات.

    Create a Jupyter Notebook to run interactive Spark SQL query.

    يتم إنشاء دفتر ملاحظات جديد وفتحه باسم بدون عنوان (بدون عنوان.ipynb).

قم بتشغيل جمل Apache Spark SQL

SQL (لغة الاستعلامات المركبة) هي اللغة الأكثر شيوعاً والأكثر استخداماً للاستعلام عن البيانات وتعريفها. تعمل عوامل Spark SQL كامتداد لـ Apache Spark لمعالجة البيانات المنظمة، باستخدام بناء الجملة SQL المألوف.

  1. تحقق من أن مركز kernel جاهز. يكون مركز kernel جاهزاً عندما ترى دائرة مجوفة بجانب اسم kernel في دفتر الملاحظات. تشير الدائرة الصلبة إلى أن المركز مشغول.

    Screenshot shows a Jupyter window with a PySpark indicator.

    عند بدء تشغيل دفتر الملاحظات للمرة الأولى، يقوم مركز kernel بتنفيذ بعض المهام في الخلفية. انتظر حتى يكون مركز Kernel جاهزاً.

  2. الصق الرمز التالي في خلية فارغة، ثم قم بالضغط SHIFT + ENTER لتقوم بتشغيل الرمز. يسرد الأمر جداول Hive على الكتلة:

    %%sql
    SHOW TABLES
    

    عند استخدام ملف Jupyter Notebook مع نظام مجموعة HDInsight، ستحصل على جلسة عمل محددة مسبقًا sqlContext يمكنك استخدامها لتشغيل استعلامات Hive باستخدام Spark SQL. %%sql تخبر Jupyter Notebook باستخدام جلسة العمل المعدة مسبقًا sqlContext لتشغيل استعلام Hive. يسترد الاستعلام أعلى 10 صفوف من جدول خلية (hivesampletable) الذي يأتي مع جميع مجموعات HDInsight بشكل افتراضي. يستغرق حوالي 30 ثانية للحصول على النتائج. يبدو الإخراج مثل:

    Screenshot shows a Jupyter window for the notebook created in this quickstart. هو التشغيل السريع." border="true":::

    في كل مرة تقوم فيها بتشغيل استعلام في Jupyter، يظهر عنوان نافذة مستعرض الويب حالة (Busy) مع عنوان دفتر الملاحظات. وستتمكن بعدها برؤية دائرة صلبة بجوار نص PySpark في الزاوية العلوية اليمنى.

  3. تشغيل استعلام آخر لمشاهدة البيانات في hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    يجب تحديث الشاشة لإظهار إخراج الاستعلام.

    Hive query output in HDInsight. Insight" border="true":::

  4. من القائمة حدد File في دفتر الملاحظات، ثم حدد lose and Halt. إيقاف تشغيل دفتر الملاحظات بإصدار موارد نظام المجموعة.

تنظيف الموارد

يقوم HDInsight بحفظ بياناتك في تخزين Azure أو تخزين Azure Data Lake، بحيث يمكنك حذف نظام مجموعة بأمان عندما لا يكون قيد الاستخدام. كما يتم تحصيل رسوم منك مقابل مجموعة HDInsight، حتى عندما لا تكون قيد الاستخدام. نظراً لأن رسوم نظام المجموعة تزيد عدة مرات عن رسوم التخزين، فمن المنطقي اقتصادياً حذف أنظمة المجموعات عندما لا تكون قيد الاستخدام. إذا كنت تخطط للعمل على البرنامج التعليمي المذكور في الخطوات التالية على الفور، فقد ترغب في الحفاظ على المجموعة.

قم بالتبديل مرة أخرى إلى مدخل Microsoft Azure، وحدد Delete.

Azure portal delete an HDInsight cluster. نظام مجموعة الرؤية" border="true":::

يمكنك أيضًا تحديد اسم مجموعة الموارد لفتح صفحة مجموعة الموارد، ثم حدد حذف مجموعة الموارد. إذا قمت بحذف مجموعة الموارد، سيتم حذف كل من نظام المجموعة HDInsight وحساب التخزين الافتراضي.

الخطوات التالية

في هذا البدء السريع، تعلمت كيفية إنشاء مجموعة Apache Spark في HDInsight وتشغيل استعلام Spark SQL الأساسي. تقدم إلى البرنامج التعليمي التالي لمعرفة كيفية استخدام مجموعة HDInsight لتشغيل الاستعلامات التفاعلية على عينة البيانات.