نشاط تدفق البيانات في Microsoft Azure Data Factory وMicrosoft Azure Synapse Analytics
ينطبق على: Azure Data Factory Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
استخدم نشاط تدفق البيانات لتحويل البيانات ونقلها عبر تدفقات بيانات التعيين. إذا كنت جديدًا على تدفقات البيانات، فشاهد نظرة عامة على تدفق بيانات التعيين
إنشاء نشاط تدفق البيانات باستخدام واجهة المستخدم
لاستخدام نشاط تدفق البيانات في مسار، أكمل الخطوات التالية:
ابحث عن Data Flow في جزء أنشطة مسار التدفق، واسحب نشاط تدفق البيانات إلى لوحة مسار التدفق.
حدد نشاط تدفق البيانات الجديد على اللوحة إذا لم يكن محددا بالفعل، وعلامة تبويب الإعدادات الخاصة به، لتحرير تفاصيله.
يتم استخدام مفتاح Checkpoint لتعيين نقطة التفتيش عند استخدام تدفق البيانات لتسجيل البيانات المتغيرة. يمكنك الكتابة فوقه. تستخدم أنشطة تدفق البيانات قيمة Guid كمفتاح نقطة تحقق بدلا من "اسم المسار + اسم النشاط" بحيث يمكنه دائما تعقب حالة التقاط بيانات التغيير للعميل حتى هناك أي إجراءات إعادة تسمية. يستخدم جميع نشاط تدفق البيانات الحالي مفتاح النمط القديم للتوافق مع الإصدارات السابقة. يظهر خيار مفتاح نقطة التحقق بعد نشر نشاط تدفق بيانات جديد مع تغيير مورد تدفق البيانات الذي تم تمكين تسجيل البيانات به على النحو التالي.
حدد تدفق بيانات موجوداً أو أنشئ تدفقاً جديداً باستخدام الزر "New". حدد الخيارات الأخرى كما هو مطلوب لإكمال التكوين الخاص بك.
بناء الجملة
{
"name": "MyDataFlowActivity",
"type": "ExecuteDataFlow",
"typeProperties": {
"dataflow": {
"referenceName": "MyDataFlow",
"type": "DataFlowReference"
},
"compute": {
"coreCount": 8,
"computeType": "General"
},
"traceLevel": "Fine",
"runConcurrently": true,
"continueOnError": true,
"staging": {
"linkedService": {
"referenceName": "MyStagingLinkedService",
"type": "LinkedServiceReference"
},
"folderPath": "my-container/my-folder"
},
"integrationRuntime": {
"referenceName": "MyDataFlowIntegrationRuntime",
"type": "IntegrationRuntimeReference"
}
}
خصائص النوع
الخاصية | الوصف | القيم المسموح بها | المطلوب |
---|---|---|---|
تدفّق البيانات | مرجع تدفق البيانات التي يتم تنفيذها | DataFlowReference | نعم |
التكامُل وقت التشغيل | بيئة الحوسبة التي تعمل عليها تدفقات البيانات. إذا لم يتم تحديده، يتم استخدام وقت تشغيل تكامل Azure للحل التلقائي. | مرجع وقت التكامل | لا |
compute.coreCount | عدد الذاكرات الأساسية المُستخدمة في مقطع تخزين spark. يمكن تحديد فقط إذا تم استخدام وقت تشغيل تكامل Azure للحل التلقائي | 8، 16، 32، 48، 80، 144، 272 | لا |
compute.computeType | نوع الحوسبة المستخدمة في مقطع تخزين spark. يمكن تحديد فقط إذا تم استخدام وقت تشغيل تكامل Azure للحل التلقائي | "عام" | لا |
staging.linkedService | إذا كنت تستخدم مصدرًا أو Azure Synapse Analytics، فحدد حساب التخزين المستخدم للتقسيم المرحلي في PolyBase. إذا تم تكوين Microsoft Azure Storage الخاص بك بنقطة نهاية خدمة VNet، يجب عليك استخدام مصادقة هوية مُدارة مع تمكين «السماح بخدمة Microsoft الموثوق بها» على حساب التخزين، راجع تأثير استخدام نقاط النهاية في خدمة VNet من خلال Microsoft Azure Storage. تعرّف أيضًا على التكوينات اللازمة لـ Microsoft Azure Blob Storage وMicrosoft Azure Data Lake Storage Gen2على التوالي. |
LinkedServiceReference | في حال كان تدفق البيانات يقرأ أو يكتب إلى Microsoft Azure Synapse Analytics فقط |
staging.folderPath | إذا كنت تستخدم مصدرًا أو متلقي Microsoft Azure Synapse Analytics، فحدد حساب التخزين المستخدم للتقسيم المرحلي في PolyBase. | السلسلة | في حال كان تدفّق البيانات يقرأ أو يكتب إلى Microsoft Azure Synapse Analytics فقط |
مستوى التتبع | عيّن مستوى تسجيل تنفيذ نشاط تدفق البيانات | جيد، رديء، لا شيء | لا |
حساب تدفّق البيانات بالحجم الديناميكي في وقت التشغيل
يمكن تعيين خصائص الحساب الأساسي ونوع الحساب بشكل حيوي لضبط حجم بيانات المصدر الواردة في وقت التشغيل. استخدم أنشطة البنية الأساسية لبرنامج ربط العمليات التجارية مثل البحث أو الحصول على بيانات التعريف للعثور على حجم بيانات مجموعة بيانات المصدر. ثم استخدم إضافة محتوى ديناميكي في خصائص نشاط تدفق البيانات. يمكنك اختيار أحجام الحوسبة الصغيرة أو المتوسطة أو الكبيرة. اختياريًا، اختر "مخصص" وقم بتكوين أنواع الحوسبة وعدد الذاكرات الأساسية يدويًا.
فيما يلي فيديو تعليمي موجز يشرح هذه التقنية
تدفق بيانات Microsoft Integration Runtime
اختر Microsoft Integration Runtime الذي ستستخدمه لتنفيذ نشاط تدفق البيانات. بشكل افتراضي، تستخدم الخدمة وقت تشغيل تكامل Azure الذي تم حله تلقائيا مع أربعة مراكز عاملة. يحتوي وقت تشغيل التكامل هذا على نوع حساب للأغراض العامة ويتم تشغيله في نفس المنطقة مثل مثيل الخدمة الخاص بك. بالنسبة للبنية الأساسية لبرنامج ربط العمليات التجارية التشغيلية، يوصى بشدة بإنشاء أوقات تشغيل تكامل Azure الخاصة بك التي تحدد مناطق معينة ونوع الحساب والأعداد الأساسية وTL لتنفيذ نشاط تدفق البيانات.
يعتبر الحد الأدنى لنوع الحوسبة للأغراض العامة مع تكوين 8 + 8 (إجمالي 16 مركزاً v-core) و10 دقائق من وقت الحياة (TTL) هو الحد الأدنى للتوصية لمعظم أحمال العمل الإنتاجية. من خلال تعيين TTL صغير، يمكن ل Azure IR الحفاظ على نظام مجموعة دافئة لن تتحمل عدة دقائق من وقت البدء لمجموعة باردة. لمزيد من المعلومات، راجع «وقت تشغيل التكامل».
هام
يتم تطبيق تحديد Microsoft Integration Runtime في نشاط تدفق البيانات على عمليات التنفيذ المشغلة للبنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. تصحيح البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك من خلال تدفقات البيانات يعمل على مقطع التخزين المحدد في جلسة عمل تصحيح الأخطاء.
قاعدة متعددة
إذا كنت تستخدم Microsoft Azure Synapse Analytics كمتلقي أو مصدر، يجب عليك اختيار موقع تجميع لتحميل دفعة PolyBase. يسمح PolyBase بتحميل الدفعة بكميات كبيرة بدلاً من تحميل البيانات صفًا بصف. يقلل PolyBase بشكل كبير من وقت التحميل في Microsoft Azure Synapse Analytics.
مفتاح نقطة التحقق
عند استخدام خيار التقاط التغيير لمصادر تدفق البيانات، يحتفظ ADF بنقطة التحقق ويديرها لك تلقائيا. مفتاح نقطة التحقق الافتراضي هو تجزئة لاسم تدفق البيانات واسم مسار التدفق. إذا كنت تستخدم نمطا ديناميكيا للجداول أو المجلدات المصدر، فقد ترغب في تجاوز هذه التجزئة وتعيين قيمة مفتاح نقطة التحقق الخاصة بك هنا.
مستوى التسجيل
إذا كنت لا تتطلب كل تنفيذ البنية الأساسية لبرنامج ربط العمليات التجارية لأنشطة تدفق البيانات لتسجيل جميع سجلات بيانات تتبع الاستخدام المطولة بالكامل، يمكنك اختياريا تعيين مستوى التسجيل إلى "أساسي" أو "بلا". عند تنفيذ تدفقات البيانات في وضع "مطول" (افتراضي)، فأنت تطلب من الخدمة تسجيل النشاط بالكامل على كل مستوى قسم فردي أثناء تحويل البيانات. قد تكون هذه عملية مكلفة، لذا فإن التمكين المطول فقط عند استكشاف الأخطاء وإصلاحها يمكن أن يحسّن من تدفق البيانات الكلي وأداء البنية الأساسية لبرنامج ربط العمليات التجارية. يقوم الوضع "الأساسي" بتسجيل مدد التحويل فقط بينما يوفر "بلا" ملخصا للمدد فقط.
خصائص المتلقّي
تسمح لك ميزة التجميع في تدفقات البيانات بتعيين ترتيب تنفيذ المتلقيات بالإضافة إلى تجميع المتلقيات معا باستخدام نفس رقم المجموعة. للمساعدة في إدارة المجموعات، يمكنك أن تطلب من الخدمة تشغيل المتلقيات في نفس المجموعة، للتشغيل بالتوازي. يمكنك أيضًا تعيين مجموعة المتلقيات للمتابعة حتى بعد مواجهة أحد المتلقيات لخطأ.
السلوك الافتراضي لمخازن تدفق البيانات هو تنفيذ كل مصدر بالتسلسل، بطريقة تسلسلية، وفشل تدفق البيانات عند مواجهة خطأ في المخزن. بالإضافة إلى ذلك، يتم تعيين جميع المتلقيات بشكل افتراضي إلى نفس المجموعة ما لم تدخل في خصائص تدفق البيانات وتعيين أولويات مختلفة للمتلقيات.
الصفّ الأول فقط
يتوفر هذا الخيار فقط لتدفق البيانات التي تحتوي على مصادر ذاكرة التخزين المؤقت المُمكّن «الإخراج إلى النشاط». يقتصر الإخراج من تدفق البيانات الذي يتم حقنه مباشرة في البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك إلى 2MB. يساعدك إعداد «الصف الأول فقط» على الحد من إخراج البيانات من تدفق البيانات عند حقن إخراج نشاط تدفق البيانات مباشرة إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك.
تعيين مَعلمات تدفق البيانات
مجموعات البيانات ذات المَعلمات
إذا كان تدفق البيانات يستخدم مجموعات بيانات ذات معلمات، فقم بتعيين قيم المعلمات في علامة التبويب «الإعدادات».
تدفقات البيانات مُحددة المَعلمات
إذا كان تدفق البيانات الخاص بك معلمات، فقم بتعيين القيم الحيوية لمعلمات تدفق البيانات في علامة التبويب «المَعلمات» يمكنك استخدام لغة تعبير البنية الأساسية لبرنامج ربط العمليات التجارية أو لغة تعبير تدفق البيانات لتعيين قيم المعلمات الديناميكية أو الحرفية. لمزيد من المعلومات، راجع «معلمات تدفق البيانات» .
خصائص الحساب ذا المَعلمات.
يمكنك تحديد معلمات للعدد الأساسي أو نوع الحساب إذا كنت تستخدم وقت تشغيل تكامل Azure الذي تم حله تلقائيا وحددت قيم compute.coreCount وcompute.computeType.
تصحيح البنية الأساسية لبرنامج ربط العمليات التجارية لنشاط تدفق البيانات
لتنفيذ تشغيل خط أنابيب تصحيح مع نشاط data Flow يجب التبديل على وضع تصحيح تدفق البيانات عبر شريط تصحيح «تدفق البيات» التمرير إلى الشريط العلوي. يتيح لك وضع التصحيح تشغيل تدفق البيانات مقابل مقطع التخزين Spark النشط. لمزيد من المعلومات، راجع وضع التصحيح.
تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية للتصحيح ضد مقطع تخزين التصحيح النشط، وليس بيئة وقت تشغيل التكامل المحدد في إعدادات نشاط تدفق البيانات. يمكنك اختيار بيئة حساب التصحيح عند بِدء تشغيل وضع التصحيح.
مراقبة نشاط تدفق البيانات
نشاط تدفق البيانات له تجربة مراقبة خاصة حيث يمكنك عرض تقسيم وقت المرحلة ومعلومات نسب البيانات. افتح جزء المراقبة عبر أيقونة «eyeglasses» ضمن «الإجراءات». لمزيد من المعلومات، راجع مراقبة تدفق البيانات .
استخدام بيانات ينتج عنها نشاط لاحق
يُخرج نشاط تدفق البيانات مقاييس تتعلق بعدد الصفوف المكتوبة على كل متلقٍ أو مصدر مقروءة من كل مصدر بيانات. يتم إرجاع نتيجة البحث في القسم output
من نتيجة تشغيل النشاط. تكون المقاييس التي تم إرجاعها في شكل json أدناه.
{
"runStatus": {
"metrics": {
"<your sink name1>": {
"rowsWritten": <number of rows written>,
"sinkProcessingTime": <sink processing time in ms>,
"sources": {
"<your source name1>": {
"rowsRead": <number of rows read>
},
"<your source name2>": {
"rowsRead": <number of rows read>
},
...
}
},
"<your sink name2>": {
...
},
...
}
}
}
على سبيل المثال، للوصول إلى عدد الصفوف المكتوبة إلى المتلقي 1 في نشاط يُسمى «dataflowActivity»، استخدم @activity('dataflowActivity').output.runStatus.metrics.sink1.rowsWritten
.
للحصول على عدد الصفوف التي تمت قراءتها من مصدر يسمى «مصدر 1» الذي تم استخدامه في هذا المتلقي، استخدم @activity('dataflowActivity').output.runStatus.metrics.sink1.sources.source1.rowsRead
.
إشعار
إذا كان المتلقي يحتوي على صفر صفوف مكتوبة، فلن يظهر في المقاييس. يمكن التحقق من الوجود باستخدام contains
الدالة. على سبيل المثال، contains(activity('dataflowActivity').output.runStatus.metrics, 'sink1')
يتحقق من كتابة أي صفوف إلى sink1.
المحتوى ذو الصلة
راجع أنشطة تدفق عناصر التحكم الأخرى المدعومة: