ما هو Azure Data Factory؟

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

Data Factory في Microsoft Fabric هو الجيل القادم من Azure Data Factory، مع بنية أبسط، وذكاء اصطناعي مدمج، وميزات جديدة. إذا كنت جديدا في تكامل البيانات، ابدأ مع Fabric Data Factory. يمكن لأعباء عمل ADF الحالية الترقية إلى Fabric للوصول إلى قدرات جديدة في علوم البيانات، والتحليلات اللحظية، والتقارير.

يجرى غالباً في عالم البيانات الضخمة تخزين البيانات الأولية وغير المنظمة في أنظمة تخزين علائقية وغير علائقية وغيرها. ومع ذلك، لا تملك البيانات الأولية السياق أو المعنى المناسب لتوفير رؤى ذات مغزى للمحللين أو علماء البيانات أو صناع القرار في مجال الأعمال من تلقاء نفسها.

تتطلب البيانات الضخمة خدمة يمكنها تنسيق العمليات وتشغيلها لتحسين هذه المخازن الهائلة من البيانات الأولية وتحويلها إلى رؤى أعمال قابلة للتنفيذ. Azure Data Factory هي خدمة سحابية مدارة تم بناؤها لهذه المشاريع الهجينة المعقدة مثل استخراج وتحويل وتحميل (ETL)، واستخراج وتحميل تحميل (ELT)، وتكامل البيانات.

ميزات Azure Data Factory

ضغط البيانات: أثناء نشاط Data Copy activity، يمكن ضغط البيانات وكتابتها إلى مصدر البيانات المستهدف. تساعد هذه الميزة على تحسين استخدام النطاق الترددي في نسخ البيانات.

دعم اتصال واسع لمصادر البيانات المختلفة: يوفر Azure Data Factory دعما واسعا للاتصال بمصادر بيانات مختلفة. وهذا مفيد عندما تريد سحب البيانات أو كتابتها من مصادر بيانات مختلفة.

محفزات الأحداث المخصصة: يتيح لك Azure Data Factory أتمتة معالجة البيانات باستخدام محفزات أحداث مخصصة. تسمح لك هذه الميزة بتنفيذ إجراء معين تلقائيا عند حدوث حدث معين.

معاينة البيانات والتحقق من الصحة: خلال نشاط Data Copy activity، تتوفر أدوات لمعاينة البيانات والتحقق منها. تساعدك هذه الميزة على التأكد من نسخ البيانات بشكل صحيح وكتابتها إلى مصدر البيانات الهدف بشكل صحيح.

تدفقات البيانات القابلة للتخصيص: يتيح لك Azure Data Factory إنشاء تدفقات بيانات قابلة للتخصيص. تسمح لك هذه الميزة بإضافة إجراءات أو خطوات مخصصة لمعالجة البيانات.

الأمان المتكامل: يقدم Azure Data Factory ميزات أمان متكاملة مثل تكامل Entra ID والتحكم في الوصول القائم على الأدوار للتحكم في الوصول إلى تدفقات البيانات. تزيد هذه الميزة من الأمان في معالجة البيانات وتحمي بياناتك.

سيناريوهات الاستخدام

على سبيل المثال، تخيل شركة ألعاب تجمع بيتابايت من سجلات الألعاب التي تنتجها الألعاب على السحابة. وتريد الشركة تحليل هذه السجلات لاكتساب نتائج التحليلات حول تفضيلات العملاء والمعلومات السكانية وسلوك الاستخدام. كما أنها تريد تحديد فرص البيع الإضافي والبيع التكميلي، وتطوير ميزات جديدة جذابة، وتمكين نمو الأعمال التجارية، وتوفير تجربة أفضل لعملائها.

ولتحليل هذه السجلات، تحتاج الشركة إلى استخدام البيانات المرجعية مثل معلومات العميل ومعلومات اللعبة ومعلومات الحملة التسويقية الموجودة في مخزن البيانات المحلي. وتريد الشركة استخدام هذه البيانات من مخزن البيانات المحلي بالإضافة إلى دمجها مع بيانات السجل الإضافية الموجودة في مخزن البيانات السحابي.

لاستخراج الرؤى، يأمل في معالجة البيانات المنضمة باستخدام عنقود Spark في السحابة (Azure HDInsight)، ونشر البيانات المحولة إلى مستودع بيانات سحابي مثل Azure Synapse Analytics لبناء تقرير فوقه بسهولة. وترغب الشركة في أتمتة تدفق سير العمل هذا ومراقبته وإدارته وفقاً لجدول يومي. كما أنها ترغب أيضاً في تنفيذه عند وصول الملفات إلى حاوية تخزين blob.

Azure Data Factory هي المنصة التي تحل مثل هذه السيناريوهات المتعلقة بالبيانات. يُعد خدمة استخراج وتحميل وتحويل للبيانات مستندة إلى السحابة وخدمات تكامل البيانات تتيح لك إنشاء تدفقات الأعمال تعتمد على البيانات في السحابة لتنسيق حركة البيانات وتحويلها على نطاق واسع. باستخدام Azure Data Factory، يمكنك إنشاء وجدولة سير عمل قائم على البيانات (تسمى خطوط الأنابيب) يمكنها استيعاب البيانات من مخازن بيانات متفرقة. يمكنك بناء عمليات ETL معقدة تحول البيانات بصريا باستخدام تدفقات البيانات أو باستخدام خدمات الحوسبة مثل Azure HDInsight Hadoop و Azure Databricks و Azure SQL Database.

بالإضافة إلى ذلك، يمكنك نشر بياناتك المحولة إلى مخازن بيانات مثل Azure Synapse Analytics for Business Intelligence (BI) لتطبيقها. في النهاية، من خلال Azure Data Factory، يمكن تنظيم البيانات الخام في مخازن بيانات ذات معنى وبحيرات بيانات لتحسين اتخاذ قرارات تجارية.

كيف تعمل هذه الوظيفة؟

يحتوي Data Factory على سلسلة من الأنظمة المترابطة التي توفر لمهندسي البيانات نظامًا أساسيًا كاملاً شاملاً.

يعرض مخططا معماريا على المستوى الأعلى Azure Data Factory.

يوفر هذا الدليل المرئي نظرة عامة تفصيلية على بنية Data Factory:

دليل بصري مفصل لبنية النظام الكاملة ل Azure Data Factory، مقدم في صورة واحدة عالية الدقة.

للتعرف على المزيد من التفاصيل، حدد الصورة السابقة للتكبير، أو تصفح للوصول إلى صورة عالية الدقة. تعرف على تطوير هذا الدليل المرئي ورسم مشروع المستندات هنا.

الاتصال والجمع

تمتلك الشركات بيانات مختلفة تقع ضمن المصادر المتباينة في أماكن العمل أو في سحابة سواء المهيكلة أو غير المهيكلة أو شبه المهيكلة وتصل جميعها على فترات وبسرعة مختلفة.

تتمثل الخطوة الأولى في بناء نظام إنتاج المعلومات في الاتصال بجميع مصادر البيانات والمعالجة المطلوبة مثل خدمات البرمجيات كخدمة (SaaS) وقواعد البيانات ومشاركة الملفات وخدمات ويب بروتوكول نقل الملفات. تتمثل الخطوة التالية في نقل البيانات حسب الحاجة إلى موقع مركزي بغرض المعالجة اللاحقة.

وستضطر المؤسسات، بدون Data Factory، إلى إنشاء مكونات حركة بيانات مخصصة أو تخطيط الخدمات المخصصة لدمج مصادر البيانات هذه ومعالجتها. ويُعد دمج هذه الأنظمة وصيانتها أمراً مكلفاً وصعباً للغاية. بالإضافة إلى ذلك، غالباً ما تفتقر هذه الأنظمة أيضاً إلى مراقبة مستوى المؤسسة، والتنبيه وتطبيق الضوابط التي يمكن أن تقدمها أي خدمة مُدارة بالكامل.

ويمكك باستخدام Data Factory، تطبيق نشاط النسخفي البنية الأساسية للبيانات لنقل البيانات من مخازن البيانات المحلية ومخازن البيانات السحابية إلى مخزن بيانات مركزي في السحابة لإجراء المزيد من التحليل. على سبيل المثال، يمكنك جمع البيانات في Azure Data Lake Storage وتحويلها لاحقا باستخدام خدمة الحوسبة Azure Data Lake Analytics. يمكنك أيضا جمع البيانات في تخزين Azure Blob وتحويلها لاحقا باستخدام عنقود Azure HDInsight Hadoop.

التحويل والإثراء

بعد تحويل البيانات إلى مخزن بيانات مركزي في السحابة، عالج البيانات المجمعة أو قم بتحويلها باستخدام تعيين تدفقات بيانات ADF. تسمح تدفقات البيانات لمهندسي البيانات من وضع رسومات تحويل البيانات التي تنفذ على Spark وصيانتها دون الحاجة إلى فهم مجموعات Spark أو برمجة Spark.

إذا كنت تفضل برمجة التحويلات يدويا، يدعم ADF الأنشطة الخارجية لتنفيذ تحويلاتك على خدمات الحوسبة مثل HDInsight Hadoop وSpark وData Lake Analytics وMachine Learning.

التكامل والتسليم المستمر والنشر

يقدم Data Factory دعما كاملا ل CI/CD لخطوط أنابيب بياناتك باستخدام Azure DevOps و GitHub. يسمح لك هذا بتطوير عمليات الاستخراج والتحويل والتحميل وتسليمها بشكل تدريجي قبل نشر المنتج النهائي. بعد أن يتم تنقيح البيانات الخام إلى شكل استهلاكي جاهز للأعمال، قم بتحميل البيانات في Azure Data Warehouse أو Azure SQL Database أو Azure Cosmos DB أو أي محرك تحليلات يمكن لمستخدمي أعمالك الإشارة إليه من أدوات ذكاء الأعمال الخاصة بهم.

Monitor

بعد إنشاء ونشر البنية الأساسية لتكامل البيانات بنجاح وتوفير قيمة الأعمال من البيانات المكررة ومراقبة الأنشطة المجدولة والبنى الأساسية للحصول على معدلات النجاح والفشل. يحتوي Azure Data Factory على دعم مدمج لمراقبة خطوط الأنابيب عبر Azure Monitor، API، PowerShell، سجلات Azure Monitor، ولوحات الصحة على بوابة Azure.

مفاهيم المستوى الأعلى

قد يحتوي اشتراك Azure على مثيل أو أكثر من Azure Data Factory (أو مصانع البيانات). يتكون Azure Data Factory من المكونات الرئيسية التالية:

  • التدفقات
  • الأنشطة
  • مجموعات البيانات
  • الخدمات المرتبطة
  • تدفقات البيانات
  • وقت تشغيل التكامل

تعمل هذه المكونات معًا لتوفير النظام الأساسي الذي يمكنك من خلاله إنشاء سير عمل يستند إلى البيانات مع خطوات لنقل البيانات وتحويلها.

‏‫‏‫‏‫المسار‬

يحتوي مصنع البيانات على بنية أساسية واحدة أو أكثر. المسار عبارة عن تجميع منطقي للأنشطة التي تؤدي وحدة عمل. تُؤدي الأنشطة الموجودة في المسار المهمة معاً. على سبيل المثال، يمكن أن يحتوي خط الأنابيب على مجموعة من الأنشطة التي تستقبل البيانات من كتلة Azure، ثم تشغل استعلام Hive على عنقود HDInsight لتقسيم البيانات.

وتتمثل فائدة ذلك في أن البنية الأساسية تسمح لك بإدارة الأنشطة كمجموعة بدلاً من إدارة كل بنية على حدة. ويمكن ربط الأنشطة في بنية أساسية واحدة للعمل بشكل تسلسلي، أو العمل بشكل مستقل بالتوازي.

تعيين تدفق البيانات

إنشاء وإدارة الرسوم البيانية لأسباب تحويل البيانات التي يمكنك استخدامها لتحويل البيانات من أي حجم. يمكنك إنشاء مكتبة قابلة لإعادة الاستخدام جراء إجراءات تحويل البيانات وتنفيذ تلك العمليات بطريقة موسعة من البنى الأساسية في ADF. سيُحدد مصنع البيانات أسبابك على مجموعة Spark التي تدور تنازلياً أو تصاعديا عندما تحتاج إليها. لن تضطر أبدا إلى إدارة أو صيانة المجموعات.

النشاط

تُمثل الأنشطة خطوات المعالجة في البنية الأساسية. فعلى سبيل المثال، يمكنك استخدام نشاط نسخ لنسخ البيانات من أحد مخازن البيانات إلى أي مخزن بيانات آخر. وبالمثل، قد تستخدم نشاط Hive، الذي يشغل استعلام Hive على عنقود Azure HDInsight، لتحويل أو تحليل بياناتك. يدعم Data Factory ثلاثة أنواع من الأنشطة: أنشطة نقل البيانات وأنشطة تحويل البيانات وأنشطة التحكم في البيانات.

مجموعات البيانات

تمثل مجموعات البيانات هياكل البيانات داخل مخازن البيانات والتي تشير ببساطة إلى البيانات التي تريد استخدامها في أنشطتك كمدخلات أو مخرجات.

الخدمات المرتبطة

تشبه الخدمات المرتبطة إلى حد كبير سلاسل الاتصال، والتي تحدد معلومات الاتصال المطلوبة لمصنع البيانات للاتصال بالموارد الخارجية. فكر في الأمر بهذه الطريقة: تحدد الخدمة المرتبطة الاتصال بمصدر البيانات وتمثل مجموعة البيانات بنية البيانات. على سبيل المثال، تحدد خدمة Azure Storage-linked سلسلة connection string للاتصال بحساب Azure Storage. بالإضافة إلى ذلك، تحدد مجموعة بيانات Azure blob الحاوية والمجلد الذي يحتوي على البيانات.

تُستخدم الخدمات المرتبطة لسببين في Data Factory:

  • لتمثيل data store الذي يشمل، وليس مقتصرا على، قاعدة بيانات SQL Server، أو قاعدة بيانات أوراكل، أو مشاركة الملفات، أو حساب تخزين Azure blob. للاطلاع على قائمة متاجر البيانات المدعومة، راجع مقال نسخة الأنشطة.

  • لتمثيل مورد حساب الذي يمكنه استضافة تنفيذ النشاط. على سبيل المثال، يعمل نشاط HDInsightHive على مجموعة HDInsight Hadoop. راجع مقالة أنشطة تحويل البيانات للحصول على قائمة ببيئات الحوسبة المدعومة.

Integration Runtime

في Data Factory، يوجد نشاط يُعرّف الإجراء الذي سيتم تنفيذه. تعرف الخدمة المرتبطة مخزن بيانات مستهدفًا أو خدمة حساب. يوفر وقت تشغيل التكامل جهة الوصل بين النشاط والخدمات المرتبطة. تتم الإشارة إليه بواسطة الخدمة أو النشاط المرتبط ويوفر بيئة الحوسبة حيث يتم تشغيل النشاط أو يتم إرساله منه. وبهذه الطريقة، يمكن تنفيذ النشاط في المنطقة الأقرب إلى مخزن البيانات الهدف أو خدمة الحساب في أكثر طريقة معمول بها مع تلبية احتياجات الأمان والتوافق.

أزرار التشغيل

تمثل المشغلات وحدة المعالجة التي تحدد متى يجب بدء تنفيذ بنية أساسية. هناك أنواع مختلفة من المشغلات لأنواع مختلفة من الأحداث.

عمليات تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية

تُعد البنية الأساسية مثيل لتنفيذ البنية الأساسية. يجرى في الغالب إنشاء مثيلات للبنى الأساسية من خلال نقل الوسيطات إلى معلمات محددة في البنية الأساسية. يجوز تحويل هذه الوسيطات يدوياً أو ضمن تعريف المشغل.

المعلمات

Parameters عبارة عن زوج قيم المفاتيح لتكوين للقراءة فقط.  يتم تعريف المعلمات في المسار. يتم تمرير الوسائط للمعلمات المعرفة خلال التنفيذ من سياق التشغيل الذي تم إنشاؤه بواسطة مشغل أو مسار تم تنفيذه يدويًا. الأنشطة داخل المسار تستهلك قيم المعلمات.

تُعد مجموعة البيانات بمثابة معلمة مكتوبة بشدة وكياناً قابلاً لإعادة الاستخدام أو الرجوع إليه. يمكن لأي نشاط الرجوع إلى مجموعات البيانات واستخدام الخصائص المحددة في تعريف مجموعة البيانات.

تُعد الخدمة المرتبطة أيضاً معلمة مكتوبة بشدة تحتوي على معلومات الاتصال المرسلة إما إلى مخزن البيانات أو بيئة المحاسبة. وتُمثل كياناً قابلاً لإعادة الاستخدام أو الرجوع إليه.

تدفق التحكم

Control flow: عبارة عن تنظيم أنشطة المسارات التي تتضمن أنشطة التسلسل المتسلسلة، وإنشاء الإصدارات الفرعية، وتعريف المعلمات على مستوى المسار، وتمرير الوسائط خلال استدعاء المسار عند الطلب أو من مشغل. وتحتوي أيضاً على حاويات تمرير وتكرار الحالة المخصصة أي لكل الأنماط المكررة.

المتغيرات

يمكن استخدام المتغيرات داخل البنية الأساسية لتخزين القيم المؤقتة ويمكن استخدامها أيضاً بالاقتران مع المعلمات لتمكين تحويل القيم بين البنى الأساسية وتدفق البيانات والأنشطة الأخرى.

يرد أدناه مستندات الخطوة التالية الهامة بغرض اكتشاف: