تصفية واستيعاب Azure Data Lake Storage Gen2 باستخدام محرر بدون تعليمات برمجية لـ Stream Analytics

توضح هذه المقالة كيف يمكنك استخدام دون محرر التعليمات البرمجية لإنشاء وظيفة Stream Analytics بسهولة. يقرأ باستمرار من مراكز الأحداث الخاصة بك، ويصفي البيانات الواردة، ثم يكتب النتائج باستمرار في Azure Data Lake Storage Gen2.

المتطلبات الأساسية

  • يجب أن تكون موارد مراكز أحداث Azure متاحة للجمهور وألا تكون خلف جدار حماية أو مؤمنة في شبكة Azure الظاهرية
  • يجب إجراء تسلسل للبيانات الموجودة في مراكز الأحداث بتنسيق JSON أو CSV أو Avro.

تطوير مهمة Stream Analytics لتصفية البيانات واستيعابها في الوقت الحقيقي

  1. في مدخل Azure، حدد موقع مثيل مراكز أحداث Azure وحدده.

  2. حدد الميزات>بيانات العملية ثم حدد بدء في بطاقة تصفية واستيعاب إلى ADLS Gen2.
    لقطة شاشة تعرض عامل التصفية والاستيعاب في بطاقة ADLS Gen2 التي تحدد

  3. أدخل اسماً لمهمة Stream Analytics، ثم حدد إنشاء.
    لقطة شاشة توضح مكان إدخال اسم الوظيفة.

  4. حدد نوع إنشاء التسلسل لبياناتك في نافذة مراكز الأحداث وطريقة المصادقة التي ستستخدمها المهمة للاتصال بمراكز الأحداث. وبعد ذلك حدد Connect.
    لقطة شاشة تعرض منطقة

  5. عندما يتم إنشاء الاتصال بنجاح ويكون لديك دفق بيانات يتدفق إلى مثيل مراكز الأحداث، فسترى على الفور شيئين:

    1. الحقول الموجودة في بيانات الإدخال. يمكنك اختيار إضافة حقل أو تحديد رمز النقاط الثلاث بجوار الحقل لإزالته أو إعادة تسميته أو تغيير نوعه.
      لقطة شاشة توضح المكان الذي يمكنك فيه إضافة حقل أو إزالة نوع حقل أو إعادة تسميته أو تغييره.
    2. عينة مباشرة من البيانات الواردة في جدول الإصدار الأولي للبيانات ضمن طريقة عرض الرسم التخطيطي. يتم تحديثه تلقائياً بشكل دوري. يمكنك تحديد إيقاف الإصدار الأولي للدفق مؤقتاً لمشاهدة طريقة عرض ثابتة لعينة بيانات الإدخال.
      لقطة شاشة تعرض بيانات نموذجية في علامة التبويب معاينة البيانات.
  6. حدد المربع Filter. في منطقة التصفية، حدد حقلاً لتصفية البيانات الواردة بشرط.
    لقطة شاشة تعرض منطقة التصفية يمكنك إضافة عامل تصفية شرطي فيها.

  7. حدد مربع Azure Data Lake Storage Gen2. حدد حساب Azure Data Lake Gen2 لإرسال البيانات التي تمت تصفيتها:

    1. حدد الاشتراك واسم حساب التخزين والحاوية من القائمة المنسدلة.
    2. بعد تحديد الاشتراك، يجب تعبئة طريقة المصادقة ومفتاح حساب التخزين تلقائياً. حدد اتصال.
      لمزيد من المعلومات حول الحقول والاطلاع على أمثلة نمط المسار، راجع تخزين كائن ثنائي كبير الحجم وإخراج Azure Data Lake Gen2 من Azure Stream Analytics.
      لقطة شاشة تعرض إعدادات تكوين اتصال حاوية الكائن الثنائي كبير الحجم Azure Data Lake Gen2.
  8. اختيارياً، حدد الحصول على الإصدار الأولي الثابت/تحديث الإصدار الأولي الثابت لمشاهدة الإصدار الأولي للبيانات الذي سيتم استيعابه من Azure Data Lake Storage Gen2.
    لقطة شاشة تعرض معاينة البيانات وخيار تحديث المعاينة الثابتة.

  9. حدد Save ثم حدد بدء وظيفة Stream Analytics.
    لقطة شاشة توضح الوظيفة خيارات

  10. لبدء المهمة، حدد عدد وحدات دفق البيانات (SUs) التي تعمل بها المهمة. تمثل وحدات دفق البيانات مقدار الحوسبة والذاكرة المخصصة للمهمة. نوصي بأن تبدأ بثلاثة ثم تضبط حسب الحاجة.

  11. بعد تحديد البدء، تبدأ المهمة في العمل في غضون دقيقتين وسيتم فتح المقاييس في قسم علامة التبويب أدناه.

    لقطة شاشة تعرض نافذة وظيفة Start Stream Analytics.

    يمكنك مشاهدة الوظيفة ضمن قسم بيانات المعالجة في علامة التبويب وظائف Stream Analytics. حدد Refresh حتى ترى حالة الوظيفة على أنها Running. حدد Open metrics لمراقبتها أو إيقافها وإعادة تشغيلها حسب الحاجة.

    لقطة شاشة تعرض علامة تبويب وظائف Stream Analytics.

    إليك نموذج لصفحة المقاييس:

    لقطة شاشة تعرض صفحة المقاييس.

التحقق من صحة البيانات في Data Lake Storage

  1. ينبغي الاطلاع على الملفات المنشأة في الحاوية التي حددتها.

    لقطة شاشة تعرض الملف الذي تم إنشاؤه ببيانات تمت تصفيتها في Azure Data Lake Storage.

  2. نزّل الملف وافتحه لتأكيد أنك ترى البيانات التي تمت تصفيتها فقط. في المثال التالي، تشاهد البيانات مع تعيين SwitchNum على الولايات المتحدة.

    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"548","SwitchNum":"US","CallingNum":"345697969","CallingIMSI":"466921402416657","CalledNum":"012332886","CalledIMSI":"466923101048691","DateS":"20220524","TimeType":0,"CallPeriod":0,"ServiceType":"S","Transfer":0,"OutgoingTrunk":"419","MSRN":"1416960750071","callrecTime":"2022-05-25T02:07:10Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:09.5140000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"552","SwitchNum":"US","CallingNum":"012351287","CallingIMSI":"262021390056324","CalledNum":"012301973","CalledIMSI":"466922202613463","DateS":"20220524","TimeType":3,"CallPeriod":0,"ServiceType":"V","Transfer":0,"OutgoingTrunk":"442","MSRN":"886932428242","callrecTime":"2022-05-25T02:07:13Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:12.7350000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    {"RecordType":"MO","SystemIdentity":"d0","FileNum":"559","SwitchNum":"US","CallingNum":"456757102","CallingIMSI":"466920401237309","CalledNum":"345617823","CalledIMSI":"466923000886460","DateS":"20220524","TimeType":1,"CallPeriod":696,"ServiceType":"V","Transfer":1,"OutgoingTrunk":"419","MSRN":"886932429155","callrecTime":"2022-05-25T02:07:22Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:21.9190000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
    

اعتبارات عند استخدام ميزة النسخ المتماثل الجغرافي لمراكز الأحداث

أطلقت مراكز الأحداث مؤخرا ميزة النسخ المتماثل الجغرافي في المعاينة العامة. تختلف هذه الميزة عن ميزة التعافي من الكوارث الجغرافية في Azure Event Hubs.

عندما يكون نوع تجاوز الفشل إجباريا وتناسق النسخ المتماثل غير متزامن، لا تضمن وظيفة Stream Analytics الإخراج مرة واحدة بالضبط إلى إخراج مراكز أحداث Azure.

قد تلاحظ Azure Stream Analytics، كمنتج مع مركز أحداث ناتج، تأخير العلامة المائية على المهمة أثناء مدة تجاوز الفشل وأثناء التقييد بواسطة مراكز الأحداث في حالة وصول تأخر النسخ المتماثل بين الأساسي والثانوي إلى الحد الأقصى للتأخر المكون.

قد تلاحظ Azure Stream Analytics، كمستهلك مع مراكز الأحداث كإدخل، تأخير العلامة المائية في المهمة أثناء مدة تجاوز الفشل وقد تتخطى البيانات أو تجد بيانات مكررة بعد اكتمال تجاوز الفشل.

نظرا لهذه المحاذير، نوصي بإعادة تشغيل وظيفة Stream Analytics مع وقت البدء المناسب مباشرة بعد اكتمال تجاوز فشل مراكز الأحداث. أيضا، نظرا لأن ميزة النسخ المتماثل الجغرافي لمراكز الأحداث في المعاينة العامة، لا نوصي باستخدام هذا النمط لمهام Stream Analytics للإنتاج في هذه المرحلة. سيتحسن سلوك Stream Analytics الحالي قبل أن تتوفر ميزة النسخ المتماثل الجغرافي لمراكز الأحداث بشكل عام ويمكن استخدامها في مهام إنتاج Stream Analytics.

الخطوات التالية

تعرف على المزيد حول Azure Stream Analytics وكيفية مراقبة المهمة التي أنشأتها.