البرنامج التعليمي: التقاط بيانات مراكز الأحداث بتنسيق parquet وتحليلها باستخدام Azure Synapse Analytics

يوضح لك هذا البرنامج التعليمي كيفية استخدام Stream Analytics بدون محرر تعليمات برمجية لإنشاء وظيفة تلتقط بيانات مراكز الأحداث في Azure Data Lake Storage Gen2 بتنسيق parquet.

في هذا البرنامج التعليمي، تتعلم كيفية:

  • توزيع منشئ حدث يرسل أحداثا نموذجية إلى مركز أحداث
  • قم بإنشاء وظيفة Stream Analytics باستخدام محرر من دون تعليمة برمجية
  • مراجعة بيانات الإدخال والمخطط
  • قم بتكوين Azure Data Lake Storage Gen2 الذي سيتم تسجيل بيانات مركز الحدث إليه
  • تشغيل وظيفة Stream Analytics
  • استخدم Azure Synapse Analytics للاستعلام عن ملفات Parquet

المتطلبات الأساسية

قبل أن تبدأ، تأكد من إكمال الخطوات التالية:

لا تستخدم أي محرر من دون تعليمة برمجية لإنشاء وظيفة Stream Analytics

  1. حدد موقع مجموعة الموارد التي تم فيها توزيع منشئ أحداث TollApp.

  2. حدد namespace في مراكز الأحداث.

  3. في صفحة Event Hubs Namespace، حدد Event Hubs ضمن Entities في القائمة اليسرى.

  4. حدد entrystream instance.

    لقطة شاشة توضح اختيار مركز الحدث.

  5. في صفحة Event Hubs instance، حدد Process data في قسم Features في القائمة اليسرى.

  6. حدد Start في مربع تسجيل البيانات إلى ADLS Gen2 بتنسيق Parquet.

    لقطة شاشة تعرض اختيار ** تسجيل البيانات إلى ADLS Gen2 بتنسيق Parquet **.

  7. قم بتسمية وظيفتك parquetcapture وحدد إنشاء.

    لقطة شاشة لصفحة وظيفة New Stream Analytics.

  8. في صفحة تكوين event hub، قم بتأكيد الإعدادات التالية، ثم حدد Connect.

    • مجموعة المستهلكين: افتراضي

    • نوع التسلسل لبيانات الإدخال: JSON

    • وضع المصادقة الذي ستستخدمه المهمة للاتصال بمركز الأحداث: سلسلة الاتصال.

      لقطة شاشة لصفحة التكوين لمركز الأحداث الخاص بك.

  9. في غضون ثوانٍ قليلة، سترى عينة من بيانات الإدخال والمخطط. يمكنك اختيار إسقاط الحقول أو إعادة تسمية الحقول أو تغيير نوع البيانات.

    لقطة شاشة توضح الحقول ومعاينة البيانات.

  10. حدد لوحة Azure Data Lake Storage Gen2 على لوحتك وقم بتكوينها عن طريق التحديد

    • الاشتراك حيث يوجد حساب Azure Data Lake Gen2 الخاص بك
    • اسم حساب التخزين، والذي يجب أن يكون نفس حساب ADLS Gen2 المستخدم مع مساحة عمل Azure Synapse Analytics التي تم إجراؤها في قسم المتطلبات الأساسية.
    • الحاوية التي سيتم إنشاء ملفات Parquet بداخلها.
    • تم تعيين نمط المسار على {date}/{time}
    • نمط التاريخ والوقت كنمط افتراضي yyyy-mm-dd وHH.
    • اختر اتصال

    لقطة شاشة تعرض إعدادات التكوين لتخزين Data Lake.

  11. حدد حفظ في الشريط العلوي لحفظ وظيفتك، ثم حدد البدء لتشغيل وظيفتك. بمجرد بدء المهمة، حدد X في الزاوية اليمنى لإغلاق صفحة وظيفة Stream Analytics .

    لقطة شاشة تعرض صفحة Start Stream Analytics Job.

  12. سترى بعد ذلك قائمة بجميع وظائف Stream Analytics التي تم إنشاؤها باستخدام محرر من دون تعليمة برمجية. وفي غضون دقيقتين، ستنتقل وظيفتك إلى الحالة Running. حدد الزر Refresh على الصفحة لمشاهدة الحالة المتغيرة من تم الإنشاء -> البدء -> قيد التشغيل.

    لقطة شاشة تعرض قائمة وظائف Stream Analytics.

عرض الإخراج في حساب Azure Data Lake Storage Gen 2 الخاص بك

  1. حدد موقع حساب Azure Data Lake Storage Gen2 الذي استخدمته في الخطوة السابقة.

  2. حدد الحاوية التي استخدمتها في الخطوة السابقة. سترى ملفات Parquet تم إنشاؤها بناءً على نمط المسار {date}/{time} المستخدم في الخطوة السابقة.

    لقطة شاشة تعرض ملفات parquet التي تم التقاطها في Azure Data Lake Storage Gen 2.

تم تسجيل الاستعلام عن البيانات بتنسيق Parquet باستخدام Azure Synapse Analytics

الاستعلام باستخدام Azure Synapse Spark

  1. حدد موقع مساحة عمل Azure Synapse Analytics وافتح إستوديو Synapse.

  2. أنشئ تجمع Apache Spark من دون خادم في مساحة عملك إذا لم يكن موجوداً بالفعل.

  3. في Synapse Studio، انتقل إلى مركز Develop وأنشئ Notebookجديداً.

  4. قم بإنشاء خلية تعليمات برمجية جديدة والصق التعليمة البرمجية التالية في تلك الخلية. استبدل الحاوية وadlsname باسم الحاوية وحساب ADLS Gen2 المستخدم في الخطوة السابقة.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. للإرفاق على شريط الأدوات، حدد تجمع Spark من القائمة المنسدلة.

  6. حدد Run All لمشاهدة النتائج

    لقطة شاشة لنتائج تشغيل Spark في Azure Synapse Analytics.

الاستعلام باستخدام Azure Synapse من دون خادم SQL

  1. في مركز Develop، قم بإنشاء برنامج نصي SQLجديد.

    لقطة شاشة تعرض صفحة Develop مع تحديد قائمة البرامج النصية SQL الجديدة.

  2. الصق النص البرمجي التالي وشغّله باستخدام نقطة نهاية SQL المضمنة من دون خادم. استبدل الحاوية وadlsname باسم الحاوية وحساب ADLS Gen2 المستخدم في الخطوة السابقة.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    لقطة شاشة لبرنامج SQL النصي ينتج عنها Azure Synapse Analytics.

تنظيف الموارد

  1. حدد موقع مثيل مراكز الأحداث الخاص بك واطلع على قائمة وظائف Stream Analytics ضمن قسم Process Data. أوقف أي وظائف قيد التشغيل.
  2. انتقل إلى مجموعة الموارد التي استخدمتها أثناء توزيع منشئ أحداث TollApp.
  3. حدد Delete resource group. اكتب اسم مجموعة الموارد لتأكيد الحذف.

الخطوات التالية

في هذا البرنامج التعليمي، تعلمت كيفية إنشاء وظيفة Stream Analytics باستخدام محرر من دون تعليمة برمجية لتسجيل تدفقات بيانات مراكز الأحداث بتنسيق Parquet. ثم استخدمت Azure Synapse Analytics للاستعلام عن ملفات Parquet باستخدام كل من Synapse Spark وSynapse SQL.