تغيير التقاط البيانات في Azure Data Factory وAzure Synapse Analytics
ينطبق على: Azure Data Factory Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
توضح هذه المقالة تغيير التقاط البيانات (CDC) في Azure Data Factory.
لمعرفة المزيد، راجع نظرة عامة على Azure Data Factory أو نظرة عامة على Azure Synapse.
نظرة عامة
عند إجراء تكامل البيانات وعمليات ETL في السحابة، يمكن أن تؤدي مهامك أداء أفضل وتكون أكثر فعالية عند قراءة البيانات المصدر التي تغيرت منذ آخر مرة تم فيها تشغيل المسار، بدلا من الاستعلام دائما عن مجموعة بيانات بأكملها على كل تشغيل. يوفر ADF طرقا مختلفة متعددة للحصول بسهولة على بيانات دلتا فقط من التشغيل الأخير.
تغيير مورد مصنع التقاط البيانات
أسهل وأسرع طريقة للبدء في مصنع البيانات باستخدام CDC هي من خلال مورد Change Data Capture على مستوى المصنع. من مصمم البنية الأساسية لبرنامج ربط العمليات التجارية الرئيسي، انقر فوق New ضمن Factory Resources لإنشاء Change Data Capture جديد. يوفر مورد مصنع التقاط بيانات التغيير تجربة معاينة للتكوين حيث يمكنك تحديد المصادر والوجهات، وتطبيق التحويلات الاختيارية، ثم النقر فوق بدء لبدء التقاط البيانات. مع مورد CDC، لا تحتاج إلى تصميم البنية الأساسية لبرنامج ربط العمليات التجارية أو أنشطة تدفق البيانات. كما تتم محاسبتك فقط على أربعة ذاكرات أساسية من تدفقات بيانات الأغراض العامة أثناء معالجة بياناتك. يمكنك تعيين زمن انتقال مفضل، والذي سيستخدمه ADF للاستيقاظ والبحث عن البيانات التي تم تغييرها. هذه هي المرة الوحيدة التي ستتم محاسبتك فيها. مورد التقاط بيانات التغيير ذو المستوى الأعلى هو أيضا أسلوب ADF لتشغيل العمليات الخاصة بك باستمرار. البنية الأساسية لبرنامج ربط العمليات التجارية في ADF هي دفعة فقط، ولكن يمكن تشغيل مورد CDC بشكل مستمر.
التقاط بيانات التغيير الأصلي في تعيين تدفق البيانات
يمكن الكشف عن البيانات التي تم تغييرها بما في ذلك الصفوف المدرجة والمحدثة والمحذوفة تلقائيا واستخراجها بواسطة تدفق بيانات تعيين ADF من قواعد البيانات المصدر. لا يلزم وجود أعمدة طابع زمني أو معرف لتحديد التغييرات لأنها تستخدم تقنية التقاط بيانات التغيير الأصلية في قواعد البيانات. بمجرد ربط تحويل مصدر ومرجع تحويل متلق إلى مجموعة بيانات قاعدة بيانات في تدفق بيانات التعيين، يمكنك مشاهدة التغييرات التي حدثت على قاعدة البيانات المصدر ليتم تطبيقها تلقائيا على قاعدة البيانات الهدف، بحيث يمكنك بسهولة مزامنة البيانات بين جدولين. يمكنك أيضا إضافة أي تحويلات بين لأي منطق عمل لمعالجة بيانات دلتا. عند تحديد وجهة بيانات المتلقي، يمكنك تعيين عمليات الإدراج والتحديث والإدراج والحذف في المتلقي الخاص بك دون الحاجة إلى تحويل Alter Row لأن ADF قادر على الكشف تلقائيا عن صانعي الصف.
الموصلات المدعومة
- SAP CDC
- قاعدة بيانات Azure SQL
- SQL Server
- مثيل Azure SQL المدار
- Azure Cosmos DB (واجهة برمجة تطبيقات SQL)
- مخزن تحليلي ل Azure Cosmos DB
- البلورة الثلجية
الاستخراج التزايدي التلقائي في تعيين تدفق البيانات
يمكن الكشف عن الصفوف المحدثة حديثا أو الملفات المحدثة واستخراجها تلقائيا بواسطة تدفق بيانات تعيين ADF من مخازن المصدر. عندما تريد الحصول على بيانات دلتا من قواعد البيانات، يكون العمود التزايدي مطلوبا لتحديد التغييرات. عندما تريد تحميل ملفات جديدة أو ملفات محدثة فقط من مخزن تخزين، يعمل تدفق بيانات تعيين ADF فقط خلال وقت التعديل الأخير للملفات.
الموصلات المدعومة
- مخزن البيانات الثنائية كبيرة الحجم لـ Azure
- ADLS Gen2
- ADLS Gen1
- قاعدة بيانات Azure SQL
- SQL Server
- مثيل Azure SQL المدار
- Azure Database for MySQL
- Azure Database for PostgreSQL
- نموذج البيانات الشائعة
استخراج بيانات دلتا المدارة من قبل العميل في البنية الأساسية لبرنامج ربط العمليات التجارية
يمكنك دائما إنشاء مسار استخراج بيانات دلتا الخاص بك لجميع مخازن البيانات المدعومة من ADF بما في ذلك استخدام نشاط البحث للحصول على قيمة العلامة المائية المخزنة في جدول تحكم خارجي، أو نشاط النسخ أو تعيين نشاط تدفق البيانات للاستعلام عن بيانات دلتا مقابل الطابع الزمني أو عمود المعرف، ونشاط SP لكتابة قيمة العلامة المائية الجديدة مرة أخرى إلى جدول التحكم الخارجي للتشغيل التالي. عندما تريد تحميل ملفات جديدة فقط من مخزن تخزين، يمكنك إما حذف الملفات في كل مرة بعد نقلها إلى الوجهة بنجاح، أو الاستفادة من الوقت المقسم للمجلد أو أسماء الملفات أو وقت التعديل الأخير لتحديد الملفات الجديدة.
أفضل الممارسات
تغيير التقاط البيانات من قواعد البيانات
- يوصى دائما بالتقاط بيانات التغيير الأصلي كأبسط طريقة للحصول على بيانات التغيير. كما أنه يجلب عبئا أقل بكثير على قاعدة البيانات المصدر عندما يستخرج ADF بيانات التغيير لمزيد من المعالجة.
- إذا لم تكن مخازن قاعدة البيانات جزءا من قائمة موصل ADF مع دعم التقاط بيانات التغيير الأصلي، نوصيك بالتحقق من خيار الاستخراج التزايدي التلقائي حيث تحتاج فقط إلى إدخال عمود تزايدي لالتقاط التغييرات. سيهتم ADF بالباقي بما في ذلك إنشاء استعلام ديناميكي لتحميل دلتا وإدارة نقطة التحقق لكل تشغيل نشاط.
- يغطي استخراج بيانات دلتا المدارة من قبل العميل في البنية الأساسية لبرنامج ربط العمليات التجارية جميع قواعد البيانات المدعومة من ADF ويمنحك المرونة للتحكم في كل شيء بنفسك.
تغيير التقاط الملفات من المخازن المستندة إلى الملفات
- عندما تريد تحميل البيانات من Azure Blob Storage أو Azure Data Lake Storage Gen2 أو Azure Data Lake Storage Gen1، فإن تعيين تدفق البيانات يوفر لك الفرصة للحصول على ملفات جديدة أو محدثة بنقرة واحدة فقط. إنها الطريقة الأبسط والموصى بها لتحقيق تحميل دلتا من هذه المخازن المستندة إلى الملفات في تعيين تدفق البيانات.
- يمكنك الحصول على المزيد من أفضل الممارسات.
نقطة التحقق
عند تمكين التقاط بيانات التغيير الأصلي أو خيارات الاستخراج التزايدي التلقائي في تدفق بيانات تعيين ADF، يساعدك ADF على إدارة نقطة التحقق للتأكد من أن كل تشغيل نشاط سيقرأ تلقائيا بيانات المصدر التي تم تغييرها منذ آخر مرة يتم فيها تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية. بشكل افتراضي، تقترن نقطة التحقق باسم البنية الأساسية لبرنامج ربط العمليات التجارية والنشاط. إذا قمت بتغيير اسم المسار أو اسم النشاط، فسيتم إعادة تعيين نقطة التحقق، ما يؤدي بك إلى البدء من البداية أو الحصول على تغييرات من الآن في التشغيل التالي. إذا كنت تريد تغيير اسم المسار أو اسم النشاط ولكنك لا تزال تحتفظ بنقطة التحقق للحصول على بيانات تم تغييرها من آخر تشغيل تلقائيا، فيرجى استخدام مفتاح نقطة التحقق الخاص بك في نشاط تدفق البيانات لتحقيق ذلك. قاعدة التسمية لمفتاح نقطة التحقق الخاصة بك هي نفسها الخدمات المرتبطة ومجموعات البيانات والتدفقات وتدفقات البيانات.
عند تصحيح أخطاء المسار، تعمل هذه الميزة بنفس الطريقة. ستتم إعادة تعيين نقطة التحقق عند تحديث المستعرض أثناء تشغيل تتبع الأخطاء. بعد أن تكون راضيًا عن نتيجة المسار من تشغيل التصحيح، يمكنك المضي قدمًا للنشر وتشغيل المسار. في اللحظة التي تقوم فيها بتشغيل المسار المنشور لأول مرة، تتم إعادة تشغيله تلقائيًا من البداية أو يحصل على تغييرات من الآن فصاعدًا.
في قسم المراقبة، دائمًا لديك فرصة لإعادة تشغيل المسار. عند القيام بذلك، يتم دائمًا التقاط البيانات التي تم تغييرها من نقطة التحقق السابقة لتشغيل المسار المحدد.
البرامج التعليمية
فيما يلي البرامج التعليمية لبدء التقاط بيانات التغيير في Azure Data Factory وAzure Synapse Analytics.
- البرنامج التعليمي ل SAP CDC في ADF
- نسخ البيانات بشكل متزايد من مخزن بيانات مصدر إلى البرامج التعليمية لمخزن بيانات الوجهة
القوالب
فيما يلي القوالب لاستخدام التقاط بيانات التغيير في Azure Data Factory وAzure Synapse Analytics.
المحتوى ذو الصلة
- تعرف على كيفية استخدام مفتاح نقطة التحقق في نشاط تدفق البيانات.
- تعرف على مورد ADF Change Data Capture.
- قم بالمشي من خلال بناء أداة التقاط بيانات التغيير ذات المستوى الأعلى.