تصفية واستيعاب Azure Data Lake Storage Gen2 باستخدام محرر بدون تعليمات برمجية لـ Stream Analytics
توضح هذه المقالة كيف يمكنك استخدام دون محرر التعليمات البرمجية لإنشاء وظيفة Stream Analytics بسهولة. يقرأ باستمرار من مراكز الأحداث الخاصة بك، ويصفي البيانات الواردة، ثم يكتب النتائج باستمرار في Azure Data Lake Storage Gen2.
المتطلبات الأساسية
- يجب أن تكون موارد مراكز أحداث Azure متاحة للجمهور وألا تكون خلف جدار حماية أو مؤمنة في شبكة Azure الظاهرية
- يجب إجراء تسلسل للبيانات الموجودة في مراكز الأحداث بتنسيق JSON أو CSV أو Avro.
تطوير مهمة Stream Analytics لتصفية البيانات واستيعابها في الوقت الحقيقي
في مدخل Azure، حدد موقع مثيل مراكز أحداث Azure وحدده.
حدد الميزات>بيانات العملية ثم حدد بدء في بطاقة تصفية واستيعاب إلى ADLS Gen2.
حدد نوع إنشاء التسلسل لبياناتك في نافذة مراكز الأحداث وطريقة المصادقة التي ستستخدمها المهمة للاتصال بمراكز الأحداث. وبعد ذلك حدد Connect.
عندما يتم إنشاء الاتصال بنجاح ويكون لديك دفق بيانات يتدفق إلى مثيل مراكز الأحداث، فسترى على الفور شيئين:
- الحقول الموجودة في بيانات الإدخال. يمكنك اختيار إضافة حقل أو تحديد رمز النقاط الثلاث بجوار الحقل لإزالته أو إعادة تسميته أو تغيير نوعه.
- عينة مباشرة من البيانات الواردة في جدول الإصدار الأولي للبيانات ضمن طريقة عرض الرسم التخطيطي. يتم تحديثه تلقائياً بشكل دوري. يمكنك تحديد إيقاف الإصدار الأولي للدفق مؤقتاً لمشاهدة طريقة عرض ثابتة لعينة بيانات الإدخال.
- الحقول الموجودة في بيانات الإدخال. يمكنك اختيار إضافة حقل أو تحديد رمز النقاط الثلاث بجوار الحقل لإزالته أو إعادة تسميته أو تغيير نوعه.
حدد المربع Filter. في منطقة التصفية، حدد حقلاً لتصفية البيانات الواردة بشرط.
حدد مربع Azure Data Lake Storage Gen2. حدد حساب Azure Data Lake Gen2 لإرسال البيانات التي تمت تصفيتها:
- حدد الاشتراك واسم حساب التخزين والحاوية من القائمة المنسدلة.
- بعد تحديد الاشتراك، يجب تعبئة طريقة المصادقة ومفتاح حساب التخزين تلقائياً. حدد اتصال.
لمزيد من المعلومات حول الحقول والاطلاع على أمثلة نمط المسار، راجع تخزين كائن ثنائي كبير الحجم وإخراج Azure Data Lake Gen2 من Azure Stream Analytics.
اختيارياً، حدد الحصول على الإصدار الأولي الثابت/تحديث الإصدار الأولي الثابت لمشاهدة الإصدار الأولي للبيانات الذي سيتم استيعابه من Azure Data Lake Storage Gen2.
لبدء المهمة، حدد عدد وحدات دفق البيانات (SUs) التي تعمل بها المهمة. تمثل وحدات دفق البيانات مقدار الحوسبة والذاكرة المخصصة للمهمة. نوصي بأن تبدأ بثلاثة ثم تضبط حسب الحاجة.
بعد تحديد البدء، تبدأ المهمة في العمل في غضون دقيقتين وسيتم فتح المقاييس في قسم علامة التبويب أدناه.
يمكنك مشاهدة الوظيفة ضمن قسم بيانات المعالجة في علامة التبويب وظائف Stream Analytics. حدد Refresh حتى ترى حالة الوظيفة على أنها Running. حدد Open metrics لمراقبتها أو إيقافها وإعادة تشغيلها حسب الحاجة.
إليك نموذج لصفحة المقاييس:
التحقق من صحة البيانات في Data Lake Storage
ينبغي الاطلاع على الملفات المنشأة في الحاوية التي حددتها.
نزّل الملف وافتحه لتأكيد أنك ترى البيانات التي تمت تصفيتها فقط. في المثال التالي، تشاهد البيانات مع تعيين SwitchNum على الولايات المتحدة.
{"RecordType":"MO","SystemIdentity":"d0","FileNum":"548","SwitchNum":"US","CallingNum":"345697969","CallingIMSI":"466921402416657","CalledNum":"012332886","CalledIMSI":"466923101048691","DateS":"20220524","TimeType":0,"CallPeriod":0,"ServiceType":"S","Transfer":0,"OutgoingTrunk":"419","MSRN":"1416960750071","callrecTime":"2022-05-25T02:07:10Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:09.5140000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null} {"RecordType":"MO","SystemIdentity":"d0","FileNum":"552","SwitchNum":"US","CallingNum":"012351287","CallingIMSI":"262021390056324","CalledNum":"012301973","CalledIMSI":"466922202613463","DateS":"20220524","TimeType":3,"CallPeriod":0,"ServiceType":"V","Transfer":0,"OutgoingTrunk":"442","MSRN":"886932428242","callrecTime":"2022-05-25T02:07:13Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:12.7350000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null} {"RecordType":"MO","SystemIdentity":"d0","FileNum":"559","SwitchNum":"US","CallingNum":"456757102","CallingIMSI":"466920401237309","CalledNum":"345617823","CalledIMSI":"466923000886460","DateS":"20220524","TimeType":1,"CallPeriod":696,"ServiceType":"V","Transfer":1,"OutgoingTrunk":"419","MSRN":"886932429155","callrecTime":"2022-05-25T02:07:22Z","EventProcessedUtcTime":"2022-05-25T02:07:50.5478116Z","PartitionId":0,"EventEnqueuedUtcTime":"2022-05-25T02:07:21.9190000Z", "TimeS":null,"CallingCellID":null,"CalledCellID":null,"IncomingTrunk":null,"CalledNum2":null,"FCIFlag":null}
اعتبارات عند استخدام ميزة النسخ المتماثل الجغرافي لمراكز الأحداث
أطلقت مراكز الأحداث مؤخرا ميزة النسخ المتماثل الجغرافي في المعاينة العامة. تختلف هذه الميزة عن ميزة التعافي من الكوارث الجغرافية في Azure Event Hubs.
عندما يكون نوع تجاوز الفشل إجباريا وتناسق النسخ المتماثل غير متزامن، لا تضمن وظيفة Stream Analytics الإخراج مرة واحدة بالضبط إلى إخراج مراكز أحداث Azure.
قد تلاحظ Azure Stream Analytics، كمنتج مع مركز أحداث ناتج، تأخير العلامة المائية على المهمة أثناء مدة تجاوز الفشل وأثناء التقييد بواسطة مراكز الأحداث في حالة وصول تأخر النسخ المتماثل بين الأساسي والثانوي إلى الحد الأقصى للتأخر المكون.
قد تلاحظ Azure Stream Analytics، كمستهلك مع مراكز الأحداث كإدخل، تأخير العلامة المائية في المهمة أثناء مدة تجاوز الفشل وقد تتخطى البيانات أو تجد بيانات مكررة بعد اكتمال تجاوز الفشل.
نظرا لهذه المحاذير، نوصي بإعادة تشغيل وظيفة Stream Analytics مع وقت البدء المناسب مباشرة بعد اكتمال تجاوز فشل مراكز الأحداث. أيضا، نظرا لأن ميزة النسخ المتماثل الجغرافي لمراكز الأحداث في المعاينة العامة، لا نوصي باستخدام هذا النمط لمهام Stream Analytics للإنتاج في هذه المرحلة. سيتحسن سلوك Stream Analytics الحالي قبل أن تتوفر ميزة النسخ المتماثل الجغرافي لمراكز الأحداث بشكل عام ويمكن استخدامها في مهام إنتاج Stream Analytics.
الخطوات التالية
تعرف على المزيد حول Azure Stream Analytics وكيفية مراقبة المهمة التي أنشأتها.