ما المقصود بـ Azure Data Factory؟
ينطبق على: Azure Data Factory Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
يجرى غالباً في عالم البيانات الضخمة تخزين البيانات الأولية وغير المنظمة في أنظمة تخزين علائقية وغير علائقية وغيرها. ومع ذلك، لا تملك البيانات الأولية السياق أو المعنى المناسب لتوفير رؤى ذات مغزى للمحللين أو علماء البيانات أو صناع القرار في مجال الأعمال من تلقاء نفسها.
تتطلب البيانات الضخمة خدمة يمكنها تنسيق العمليات وتشغيلها لتحسين هذه المخازن الهائلة من البيانات الأولية وتحويلها إلى رؤى أعمال قابلة للتنفيذ. يُعد Azure Data Factory عبارة عن خدمة سحابية مُدارة تم إنشاؤها من أجل استخراج وتحويل وتحميل المخرجات المختلطة والاستخراج والتحويل والتحميل ومشاريع تكامل البيانات.
ميزات Azure Data Factory
ضغط البيانات: أثناء نشاط نسخ البيانات، من الممكن ضغط البيانات وكتابة البيانات المضغوطة إلى مصدر البيانات الهدف. تساعد هذه الميزة على تحسين استخدام النطاق الترددي في نسخ البيانات.
دعم اتصال واسع النطاق لمصادر البيانات المختلفة: يوفر Azure Data Factory دعما واسعا للاتصال بمصادر بيانات مختلفة. وهذا مفيد عندما تريد سحب البيانات أو كتابتها من مصادر بيانات مختلفة.
مشغلات الأحداث المخصصة: يسمح لك Azure Data Factory بأتمتة معالجة البيانات باستخدام مشغلات الأحداث المخصصة. تسمح لك هذه الميزة بتنفيذ إجراء معين تلقائيا عند حدوث حدث معين.
معاينة البيانات والتحقق من صحتها: أثناء نشاط نسخ البيانات، يتم توفير أدوات لمعاينة البيانات والتحقق من صحتها. تساعدك هذه الميزة على التأكد من نسخ البيانات بشكل صحيح وكتابتها إلى مصدر البيانات الهدف بشكل صحيح.
تدفقات البيانات القابلة للتخصيص: يسمح لك Azure Data Factory بإنشاء تدفقات بيانات قابلة للتخصيص. تسمح لك هذه الميزة بإضافة إجراءات أو خطوات مخصصة لمعالجة البيانات.
الأمان المتكامل: يوفر Azure Data Factory ميزات أمان متكاملة مثل تكامل معرف Entra والتحكم في الوصول المستند إلى الدور للتحكم في الوصول إلى تدفقات البيانات. تزيد هذه الميزة من الأمان في معالجة البيانات وتحمي بياناتك.
سيناريوهات الاستخدام
على سبيل المثال، تخيل شركة ألعاب تجمع بيتابايت من سجلات الألعاب التي تنتجها الألعاب على السحابة. وتريد الشركة تحليل هذه السجلات لاكتساب نتائج التحليلات حول تفضيلات العملاء والمعلومات السكانية وسلوك الاستخدام. كما أنها تريد تحديد فرص البيع الإضافي والبيع التكميلي، وتطوير ميزات جديدة جذابة، وتمكين نمو الأعمال التجارية، وتوفير تجربة أفضل لعملائها.
ولتحليل هذه السجلات، تحتاج الشركة إلى استخدام البيانات المرجعية مثل معلومات العميل ومعلومات اللعبة ومعلومات الحملة التسويقية الموجودة في مخزن البيانات المحلي. وتريد الشركة استخدام هذه البيانات من مخزن البيانات المحلي بالإضافة إلى دمجها مع بيانات السجل الإضافية الموجودة في مخزن البيانات السحابي.
لاستخراج الرؤى، يسعى التطبيق لمعالجة البيانات المرتبطة باستخدام مجموعة Spark في السحابة (Azure HDInsight) ونشر البيانات المحولة إلى مستودع بيانات سحابي مثلAzure Synapse Analytics لإنشاء التقرير بسهولة فوقه. وترغب الشركة في أتمتة تدفق سير العمل هذا ومراقبته وإدارته وفقاً لجدول يومي. كما أنها ترغب أيضاً في تنفيذه عند وصول الملفات إلى حاوية تخزين blob.
Azure Data Factory هو النظام الأساسي الذي يحل سيناريوهات البيانات هذه. يُعد خدمة استخراج وتحميل وتحويل للبيانات مستندة إلى السحابة وخدمات تكامل البيانات تتيح لك إنشاء تدفقات الأعمال تعتمد على البيانات في السحابة لتنسيق حركة البيانات وتحويلها على نطاق واسع. باستخدام Azure Data Factory، يمكنك إنشاء تدفقات سير عمل تعتمد على البيانات وجدولتها (تسمى المسارات) يمكنها استيعاب البيانات من مخازن البيانات المختلفة. يمكنك إنشاء عمليات الاستخراج والتحويل والتحميل التي تتولى تحويل البيانات مرئياً باستخدام تدفقات البيانات أو باستخدام خدمات الحوسبة مثل Azure HDInsight Hadoop وAzure Databricks وقاعدة بياناتAzure SQL .
بالإضافة إلى ذلك، يمكنك نشر البيانات المحولة إلى مخازن البيانات مثل Azure Synapse Analytics لتطبيقات ذكاء الأعمال للاستهلاك. وفي النهاية يمكن، من خلال Azure Data Factory، تنظيم البيانات الأولية في مخازن البيانات ذات المغزى وبحيرات بيانات لاتخاذ قرارات تجارية أفضل.
كيف تعمل هذه الوظيفة؟
يحتوي Data Factory على سلسلة من الأنظمة المترابطة التي توفر لمهندسي البيانات نظامًا أساسيًا كاملاً شاملاً.
يوفر هذا الدليل المرئي نظرة عامة تفصيلية على بنية Data Factory:
للتعرف على المزيد من التفاصيل، حدد الصورة السابقة للتكبير، أو تصفح للوصول إلى صورة عالية الدقة.
الاتصال والجمع
تمتلك الشركات بيانات مختلفة تقع ضمن المصادر المتباينة في أماكن العمل أو في سحابة سواء المهيكلة أو غير المهيكلة أو شبه المهيكلة وتصل جميعها على فترات وبسرعة مختلفة.
تتمثل الخطوة الأولى في بناء نظام إنتاج المعلومات في الاتصال بجميع مصادر البيانات والمعالجة المطلوبة مثل خدمات البرمجيات كخدمة (SaaS) وقواعد البيانات ومشاركة الملفات وخدمات ويب بروتوكول نقل الملفات. تتمثل الخطوة التالية في نقل البيانات حسب الحاجة إلى موقع مركزي بغرض المعالجة اللاحقة.
وستضطر المؤسسات، بدون Data Factory، إلى إنشاء مكونات حركة بيانات مخصصة أو تخطيط الخدمات المخصصة لدمج مصادر البيانات هذه ومعالجتها. ويُعد دمج هذه الأنظمة وصيانتها أمراً مكلفاً وصعباً للغاية. بالإضافة إلى ذلك، غالباً ما تفتقر هذه الأنظمة أيضاً إلى مراقبة مستوى المؤسسة، والتنبيه وتطبيق الضوابط التي يمكن أن تقدمها أي خدمة مُدارة بالكامل.
ويمكك باستخدام Data Factory، تطبيق نشاط النسخفي البنية الأساسية للبيانات لنقل البيانات من مخازن البيانات المحلية ومخازن البيانات السحابية إلى مخزن بيانات مركزي في السحابة لإجراء المزيد من التحليل. فعلى سبيل المثال، يمكنك جمع البيانات في مخزن بحيرة بيانات Azure وتحويل البيانات لاحقاً باستخدام خدمة حساب تحليلات بحيرة بيانات Azure. يمكنك كذلك تجميع البيانات في مخزن كائن البيانات الثنائية TD Azure ثم تحويلها لاحقاً باستخدام مجموعة Azure HDInsight Hadoop.
التحويل والإثراء
بعد تحويل البيانات إلى مخزن بيانات مركزي في السحابة، عالج البيانات المجمعة أو قم بتحويلها باستخدام تعيين تدفقات بيانات ADF. تسمح تدفقات البيانات لمهندسي البيانات من وضع رسومات تحويل البيانات التي تنفذ على Spark وصيانتها دون الحاجة إلى فهم مجموعات Spark أو برمجة Spark.
إذا كنت تفضل تحويل التعليمات البرمجية عن طريق التحويل يدوياً، يُدعم ADF الأنشطة الخارجية لتنفيذ عمليات التحويل الخاصة بك على خدمات الحوسبة مثل HDInsight Hadoop وSpark وData Lake Analytics والتعلم الآلي.
التكامل والتسليم المستمر والنشر
يعرضData Factory الدعم الكامل للتكامل والتسليم المستمر للبنية الأساسية للبيانات باستخدام Azure DevOps وGitHub. يسمح لك هذا بتطوير عمليات الاستخراج والتحويل والتحميل وتسليمها بشكل تدريجي قبل نشر المنتج النهائي. بعد تعديل البيانات الأولية وتحويلها إلى نموذج قابل للاستهلاك جاهز لتنفيذ الأعمال، حمل البيانات في Azure Data Warehouse أو قاعدة بياناتAzure SQL أو Azure CosmosDB أو أي محرك تحليلات يمكن لمستخدمي الأعمال أن يشيروا إليه من أدوات المعلومات المهنية الخاصة بهم.
Monitor
بعد إنشاء ونشر البنية الأساسية لتكامل البيانات بنجاح وتوفير قيمة الأعمال من البيانات المكررة ومراقبة الأنشطة المجدولة والبنى الأساسية للحصول على معدلات النجاح والفشل. يحتوي Azure Data Factory على دعم مدمج لمراقبة البنى الأساسية عبر Azure Monitor وواجهة برمجة التطبيقات وPowerShell وسجلات Azure Monitor واللوحات الصحية على مدخل Microsoft Azure.
مفاهيم المستوى الأعلى
يمكن أن يحتوي اشتراك Azure على مثيل واحد أو أكثر من مثيلات Azure Data Factory (أو مصانع البيانات). يتكون Azure Data Factory من المكونات الرئيسية التالية:
- التدفقات
- الأنشطة
- مجموعات البيانات
- الخدمات المرتبطة
- تدفقات البيانات
- وقت تشغيل التكامل
تعمل هذه المكونات معًا لتوفير النظام الأساسي الذي يمكنك من خلاله إنشاء سير عمل يستند إلى البيانات مع خطوات لنقل البيانات وتحويلها.
المسار
يحتوي مصنع البيانات على بنية أساسية واحدة أو أكثر. المسار عبارة عن تجميع منطقي للأنشطة التي تؤدي وحدة عمل. تُؤدي الأنشطة الموجودة في المسار المهمة معاً. فعلى سبيل المثال، قد تحتوي البنية الأساسية على مجموعة من الأنشطة التي تستوعب البيانات الواردة من كائن البيانات الثنائية Azure ثم تقوم بتشغيل استعلام Hive على مجموعة HDInsight لتقسيم البيانات.
وتتمثل فائدة ذلك في أن البنية الأساسية تسمح لك بإدارة الأنشطة كمجموعة بدلاً من إدارة كل بنية على حدة. ويمكن ربط الأنشطة في بنية أساسية واحدة للعمل بشكل تسلسلي، أو العمل بشكل مستقل بالتوازي.
تعيين تدفق البيانات
إنشاء وإدارة الرسوم البيانية لأسباب تحويل البيانات التي يمكنك استخدامها لتحويل البيانات من أي حجم. يمكنك إنشاء مكتبة قابلة لإعادة الاستخدام جراء إجراءات تحويل البيانات وتنفيذ تلك العمليات بطريقة موسعة من البنى الأساسية في ADF. سيُحدد مصنع البيانات أسبابك على مجموعة Spark التي تدور تنازلياً أو تصاعديا عندما تحتاج إليها. لن تضطر أبدا إلى إدارة أو صيانة المجموعات.
النشاط
تُمثل الأنشطة خطوات المعالجة في البنية الأساسية. فعلى سبيل المثال، يمكنك استخدام نشاط نسخ لنسخ البيانات من أحد مخازن البيانات إلى أي مخزن بيانات آخر. يمكنك كذلك استخدام نشاط Hive بتشغيل استعلام Hive على مجموعة Azure HDInsight لتحويل بياناتك أو تحليلها. يدعم Data Factory ثلاثة أنواع من الأنشطة: أنشطة نقل البيانات وأنشطة تحويل البيانات وأنشطة التحكم في البيانات.
مجموعات البيانات
تمثل مجموعات البيانات هياكل البيانات داخل مخازن البيانات والتي تشير ببساطة إلى البيانات التي تريد استخدامها في أنشطتك كمدخلات أو مخرجات.
الخدمات المرتبطة
تشبه الخدمات المرتبطة إلى حد كبير سلاسل الاتصال، والتي تحدد معلومات الاتصال المطلوبة لمصنع البيانات للاتصال بالموارد الخارجية. فكر في الأمر بهذه الطريقة: تحدد الخدمة المرتبطة الاتصال بمصدر البيانات وتمثل مجموعة البيانات بنية البيانات. فعلى سبيل المثال، تحدد الخدمة المرتبطة بالتخزين في Azure سلسلة الاتصال التي يجرى من خلالها الاتصال بحساب تخزين Azure. علاوة على ذلك، تحدد مجموعة بيانات كائن البيانات الثنائية في Azure حاوية البيانات الثنائية والمجلد الذي يحتوي على البيانات.
تُستخدم الخدمات المرتبطة لسببين في Data Factory:
لتمثيل مخزن بيانات يتضمن، على سبيل المثال لا الحصر، قاعدة بيانات خادم SQL أو قاعدة بيانات Oracle أو مشاركة الملفات أو حساب تخزين كائن البيانات الثنائية Azure. للاطلاع على قائمة متاجر البيانات المدعومة، راجع مقال نسخة الأنشطة.
لتمثيل مورد حساب الذي يمكنه استضافة تنفيذ النشاط. على سبيل المثال، يعمل نشاط HDInsightHive على مجموعة HDInsight Hadoop. راجع مقالة أنشطة تحويل البيانات للحصول على قائمة ببيئات الحوسبة المدعومة.
وقت تشغيل التكامل
في Data Factory، يوجد نشاط يُعرّف الإجراء الذي سيتم تنفيذه. تعرف الخدمة المرتبطة مخزن بيانات مستهدفًا أو خدمة حساب. يوفر وقت تشغيل التكامل جهة الوصل بين النشاط والخدمات المرتبطة. تتم الإشارة إليه بواسطة الخدمة أو النشاط المرتبط ويوفر بيئة الحوسبة حيث يتم تشغيل النشاط أو يتم إرساله منه. وبهذه الطريقة، يمكن تنفيذ النشاط في المنطقة الأقرب إلى مخزن البيانات الهدف أو خدمة الحساب في أكثر طريقة معمول بها مع تلبية احتياجات الأمان والتوافق.
أزرار التشغيل
تمثل المشغلات وحدة المعالجة التي تحدد متى يجب بدء تنفيذ بنية أساسية. هناك أنواع مختلفة من المشغلات لأنواع مختلفة من الأحداث.
عمليات تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية
تُعد البنية الأساسية مثيل لتنفيذ البنية الأساسية. يجرى في الغالب إنشاء مثيلات للبنى الأساسية من خلال نقل الوسيطات إلى معلمات محددة في البنية الأساسية. يجوز تحويل هذه الوسيطات يدوياً أو ضمن تعريف المشغل.
المعلمات
Parameters عبارة عن زوج قيم المفاتيح لتكوين للقراءة فقط. يتم تعريف المعلمات في المسار. يتم تمرير الوسائط للمعلمات المعرفة خلال التنفيذ من سياق التشغيل الذي تم إنشاؤه بواسطة مشغل أو مسار تم تنفيذه يدويًا. الأنشطة داخل المسار تستهلك قيم المعلمات.
تُعد مجموعة البيانات بمثابة معلمة مكتوبة بشدة وكياناً قابلاً لإعادة الاستخدام أو الرجوع إليه. يمكن لأي نشاط الرجوع إلى مجموعات البيانات واستخدام الخصائص المحددة في تعريف مجموعة البيانات.
تُعد الخدمة المرتبطة أيضاً معلمة مكتوبة بشدة تحتوي على معلومات الاتصال المرسلة إما إلى مخزن البيانات أو بيئة المحاسبة. وتُمثل كياناً قابلاً لإعادة الاستخدام أو الرجوع إليه.
تدفق التحكم
Control flow: عبارة عن تنظيم أنشطة المسارات التي تتضمن أنشطة التسلسل المتسلسلة، وإنشاء الإصدارات الفرعية، وتعريف المعلمات على مستوى المسار، وتمرير الوسائط خلال استدعاء المسار عند الطلب أو من مشغل. وتحتوي أيضاً على حاويات تمرير وتكرار الحالة المخصصة أي لكل الأنماط المكررة.
المتغيرات
يمكن استخدام المتغيرات داخل البنية الأساسية لتخزين القيم المؤقتة ويمكن استخدامها أيضاً بالاقتران مع المعلمات لتمكين تحويل القيم بين البنى الأساسية وتدفق البيانات والأنشطة الأخرى.
المحتوى ذو الصلة
يرد أدناه مستندات الخطوة التالية الهامة بغرض اكتشاف: