التقاط البيانات من مراكز الأحداث بتنسيق Delta Lake

توضح هذه المقالة كيفية استخدام محرر التعليمات البرمجية دون تسجيل بيانات الدفق تلقائيا في مراكز الأحداث في حساب Azure Data Lake Storage Gen2 بتنسيق Delta Lake.

المتطلبات الأساسية

  • يجب أن تكون موارد مراكز أحداث Azure وAzure Data Lake Storage Gen2 متاحة للجمهور ولا يمكن أن تكون خلف جدار حماية أو مؤمنة في شبكة Azure الظاهرية.
  • يجب إجراء تسلسل للبيانات الموجودة في مراكز الأحداث بتنسيق JSON أو CSV أو Avro.

تكوين وظيفة لالتقاط البيانات

استخدم الخطوات التالية لتكوين وظيفة Stream Analytics لالتقاط البيانات في Azure Data Lake Storage Gen2.

  1. في مدخل Microsoft Azure، توجه إلى مركز الأحداث.

  2. حدد الميزات>بيانات العملية، وحدد البدء على بطاقة تنسيق التقاط البيانات إلى ADLS Gen2 في Delta Lake.
    لقطة شاشة تعرض بطاقات بدء بيانات

    بدلا من ذلك، حدد التقاط الميزات>، وحدد خيار Delta Lake ضمن "تنسيق تسلسل حدث الإخراج"، ثم حدد بدء تكوين التقاط البيانات. لقطة شاشة تعرض نقطة إدخال إنشاء بيانات الالتقاط.

  3. قم بإدخال اسماً لتحديد وظيفة Stream Analytics. حدد إنشاء.
    لقطة شاشة تعرض نافذة وظيفة New Stream Analytics حيث تقوم بإدخال اسم الوظيفة.

  4. حدد نوع التسلسل لبياناتك في مراكز الأحداث وطريقة المصادقة التي تستخدمها الوظيفة للاتصال بمراكز الأحداث. وبعد ذلك حدد Connect. لقطة شاشة تعرض تكوين اتصال مراكز الأحداث.

  5. عند تأسيس الاتصال بنجاح، سترى:

    • الحقول الموجودة في بيانات الإدخال. يمكنك اختيار إضافة حقل أو يمكنك تحديد رمز النقاط الثلاث المجاور للحقل لإزالة اسمه اختيارياً أو إعادة تسميته أو تغييره.
    • عينة مباشرة من البيانات الواردة في جدول معاينة البيانات ضمن طريقة عرض الرسم التخطيطي. يتم تحديثه بشكلٍ دوري. يمكنك تحديد إيقاف معاينة البث مؤقتاً لمشاهدة طريقة عرض ثابتة لنموذج الإدخال.
      لقطة شاشة تعرض بيانات نموذجية ضمن معاينة البيانات.
  6. حدد تجانب Azure Data Lake Storage Gen2 لتحرير التكوين.

  7. في صفحة تكوين Azure Data Lake Storage Gen2، اتبع هذه الخطوات:

    1. حدد الاشتراك واسم حساب التخزين والحاوية من القائمة المنسدلة.

    2. بمجرد تحديد الاشتراك، يجب تعبئة أسلوب المصادقة ومفتاح حساب التخزين تلقائياً.

    3. بالنسبة لمسار جدول Delta، يتم استخدامه لتحديد موقع واسم جدول Delta Lake المخزن في Azure Data Lake Storage Gen2. يمكنك اختيار استخدام مقطع مسار واحد أو أكثر لتعريف المسار إلى جدول دلتا واسم جدول دلتا. لمعرفة المزيد، راجع الكتابة إلى جدول Delta Lake.

    4. حدد اتصال.

      تظهر لقطة الشاشة الأولى نافذة Blob حيث تقوم بتحرير تكوين اتصال blob.

  8. عند تأسيس الاتصال، سترى الحقول الموجودة في بيانات الإخراج.

  9. حدد Save من شريط الأوامر لحفظ التكوين الخاص بك.

  10. حدد Start من شريط الأوامر لبدء تدفق الدفق لالتقاط البيانات. ثم في نافذة وظيفة Start Stream Analytics:

    1. اختر وقت بدء الإخراج.
    2. حدد عدد وحدات الدفق (SU) التي تعمل بها الوظيفة. تمثل SU موارد الحوسبة المخصصة لتنفيذ وظيفة Stream Analytics. لمزيدٍ من المعلومات، راجع وحدات الدفق في Azure Stream Analytics.
      لقطة شاشة تعرض نافذة وظيفة Start Stream Analytics حيث تقوم بتعيين وقت بدء الإخراج ووحدات البث ومعالجة الأخطاء.
  11. بعد تحديد البدء، تبدأ المهمة في العمل في غضون دقيقتين، وسيتم فتح المقاييس في قسم علامة التبويب كما هو موضح في الصورة التالية. لقطة شاشة تعرض مخطط المقاييس.

  12. يمكن رؤية المهمة الجديدة في علامة تبويب وظائف Stream Analytics. لقطة شاشة تعرض رابط Open Metrics المحدد.

تحقق من الإخراج

تحقق من إنشاء ملفات parquet بتنسيق Delta lake في حاوية Azure Data Lake Storage.

لقطة شاشة تعرض ملفات Parquet التي تم إنشاؤها في حاوية Azure Data Lake Storage (ADLS).

اعتبارات عند استخدام ميزة النسخ المتماثل الجغرافي لمراكز الأحداث

أطلقت مراكز الأحداث مؤخرا ميزة النسخ المتماثل الجغرافي في المعاينة العامة. تختلف هذه الميزة عن ميزة التعافي من الكوارث الجغرافية في Azure Event Hubs.

عندما يكون نوع تجاوز الفشل إجباريا وتناسق النسخ المتماثل غير متزامن، لا تضمن وظيفة Stream Analytics الإخراج مرة واحدة بالضبط إلى إخراج مراكز أحداث Azure.

قد تلاحظ Azure Stream Analytics، كمنتج مع مركز أحداث ناتج، تأخير العلامة المائية على المهمة أثناء مدة تجاوز الفشل وأثناء التقييد بواسطة مراكز الأحداث في حالة وصول تأخر النسخ المتماثل بين الأساسي والثانوي إلى الحد الأقصى للتأخر المكون.

قد تلاحظ Azure Stream Analytics، كمستهلك مع مراكز الأحداث كإدخل، تأخير العلامة المائية في المهمة أثناء مدة تجاوز الفشل وقد تتخطى البيانات أو تجد بيانات مكررة بعد اكتمال تجاوز الفشل.

نظرا لهذه المحاذير، نوصي بإعادة تشغيل وظيفة Stream Analytics مع وقت البدء المناسب مباشرة بعد اكتمال تجاوز فشل مراكز الأحداث. أيضا، نظرا لأن ميزة النسخ المتماثل الجغرافي لمراكز الأحداث في المعاينة العامة، لا نوصي باستخدام هذا النمط لمهام Stream Analytics للإنتاج في هذه المرحلة. سيتحسن سلوك Stream Analytics الحالي قبل أن تتوفر ميزة النسخ المتماثل الجغرافي لمراكز الأحداث بشكل عام ويمكن استخدامها في مهام إنتاج Stream Analytics.

الخطوات التالية

الآن أنت تعرف كيفية استخدام Stream Analytics لا يوجد محرر تعليمات برمجية لإنشاء مهمة تلتقط بيانات مراكز الأحداث إلى Azure Data Lake Storage Gen2 بتنسيق Delta lake. بعد ذلك، يمكنك معرفة المزيد حول Azure Stream Analytics وكيفية مراقبة الوظيفة التي قمت بإنشائها.