فهم مكونات Azure Data Factory

مكتمل

قد يكون لاشتراك Azure واحد أو أكثر من مثيلات Azure Data Factory. يتكون Azure Data Factory من أربعة مكونات أساسية. تعمل هذه المكونات معًا لتوفير النظام الأساسي الذي يمكنك من خلاله إنشاء سير عمل يستند إلى البيانات مع خطوات لنقل البيانات وتحويلها.

يدعم Data Factory مجموعة واسعة من مصادر البيانات التي يمكنك الاتصال بها من خلال إنشاء عنصر يعرف باسم «Linked Service»، والتي تمكنك من استيعاب البيانات من مصدر بيانات في حالة استعداد لإعداد البيانات لتحويلها و/أو تحليلها. بالإضافة إلى ذلك، يمكن للخدمة المرتبطة تشغيل خدمات الحساب عند الطلب. على سبيل المثال، قد تكون لديك متطلبات لبدء نظام مجموعة HDInsight عند الطلب لغرض معالجة البيانات فقط من خلال استعلام Apache Hive. لذلك تمكنك الخدمة المرتبطة من تحديد مصادر البيانات أو حساب المورد المطلوب لاستيعاب البيانات وإعدادها.

من خلال تعريف Linked Service، يتم تعريف Azure Data Factory بمجموعات البيانات التي يجب استخدامها من خلال إنشاء العنصر «Datasets». تمثل Datasets بُنى البيانات داخل مخزن البيانات الذي يتم الرجوع إليه بواسطة عنصر Linked Service. يمكن أيضًا استخدام Datasets بواسطة عنصرADF يعرف باسم Activity.

تحتوي Activities على منطق التحويل أو أوامر التحليل الخاصة بعمل Azure Data Factory. تتضمن Activities نشاط النسخ الذي يمكن استخدامه لاستيعاب البيانات من مصادر بيانات متنوعة. يمكن أن تتضمن أيضًا تدفق بيانات التعيين لتنفيذ تحويلات البيانات بدون تعليمة برمجية. ويمكن أن تشمل أيضًا تنفيذ إجراء مُخزن، أو استعلام Apache Hive، أو برنامج نصي Pig لتحويل البيانات. يمكنك دفع البيانات إلى نموذج التعلّم الآلي لإجراء التحليل. ليس من غير المألوف أن يتم تنفيذ أنشطة متعددة قد تتضمن تحويل البيانات باستخدام إجراء مخزن في SQL، وبعده يتم تنفيذ التحليلات باستخدام Databricks. في هذه الحالة، يمكن تجميع أنشطة متعددة منطقيًا مع عنصر يشار إليه باسم «Pipeline»، ويمكن جدولة تلك الأنشطة للتنفيذ، أو يمكن تعريف مشغل يحدد متى يحتاج تنفيذ مسار معين إلى إيقافه. هناك أنواع مختلفة من المشغلات لأنواع مختلفة من الأحداث.

Data Factory Components

Control flow: عبارة عن تنظيم أنشطة المسارات التي تتضمن أنشطة التسلسل المتسلسلة، وإنشاء الإصدارات الفرعية، وتعريف المعلمات على مستوى المسار، وتمرير الوسائط خلال استدعاء المسار عند الطلب أو من مشغل. كما يتضمن حاويات تمرير وتكرار حلقي مخصصة الحالة، ومكررات For-each.

Parameters عبارة عن زوج قيم المفاتيح لتكوين للقراءة فقط.  يتم تعريف المعلمات في المسار. يتم تمرير الوسائط للمعلمات المعرفة خلال التنفيذ من سياق التشغيل الذي تم إنشاؤه بواسطة مشغل أو مسار تم تنفيذه يدويًا. الأنشطة داخل المسار تستهلك قيم المعلمات.

لدى Azure Data Factory وقت تشغيل تكامل يمكّنه من الربط بين النشاط وعناصر الخدمات المرتبطة. يُشار إليه عن طريق الخدمة المرتبطة، ويوفر بيئة الحساب الذي يتم فيها تشغيل النشاط أو يتم إرسالها منها. وبهذه الطريقة، يمكن تنفيذ النشاط في المنطقة الأقرب. هناك ثلاثة أنواع من أوقات تشغيل التكامل، بما في ذلك Azure، والاستضافة الذاتية، وAzure-SSIS.

بمجرد اكتمال كل العمل، يمكنك استخدام Data Factory لنشر مجموعة البيانات النهائية إلى خدمة مرتبطة أخرى يمكن استهلاكها بعد ذلك بواسطة تقنيات مثل Power BI أو التعلم الآلي.