استخدم Azure Data Factory لترحيل البيانات من خادم Netezza المحلي إلى Azure

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

يوفر Azure Data Factory آلية فعالة وقوية وفعالة من حيث التكلفة لترحيل البيانات على نطاق واسع من خادم Netezza المحلي إلى حساب تخزين Azure أو قاعدة بيانات Azure Synapse Analytics.

توفر هذه المقالة المعلومات التالية لمهندسي البيانات والمطورين:

  • الأداء
  • مرونة النسخ
  • أمن الشبكة
  • تصميم حل رفيع المستوى
  • تنفيذ أفضل الممارسات

الأداء

يوفر Azure Data Factory بنية بدون خادم تسمح بالتوازي على مستويات مختلفة. إذا كنت مطوراً، فهذا يعني أنه يمكنك إنشاء خطوط أنابيب لاستخدام كل من عرض النطاق الترددي للشبكة وقاعدة البيانات بشكل كامل لزيادة إنتاجية حركة البيانات للبيئة الخاصة بك.

رسم تخطيطي للأداء

يمكن تفسير الرسم البياني السابق على النحو التالي:

  • يمكن لنشاط النسخة الواحدة الاستفادة من موارد الحوسبة القابلة للتحجيم. عند استخدام Azure Integration Runtime، يمكنك تحديد ما يصل إلى 256 وحدة DIUs لكل نشاط نسخ بطريقة بلا خادم. مع وقت تشغيل التكامل المستضاف ذاتيا (وقت تشغيل التكامل المستضاف ذاتيا)، يمكنك توسيع نطاق الجهاز يدويا أو توسيع نطاقه إلى أجهزة متعددة (حتى أربع عقد)، ويوزع نشاط نسخة واحدة قسمه عبر جميع العقد.

  • يقوم نشاط نسخة واحدة بالقراءة من مخزن البيانات والكتابة إليه باستخدام مؤشرات ترابط متعددة.

  • يمكن أن يبدأ تدفق التحكم في Azure Data Factory أنشطة نسخ متعددة على التوازي. على سبيل المثال، يمكن بدء تشغيلها باستخدام حلقة لكل تكرار حلقي.

لمزيد من المعلومات، راجع دليل أداء نشاط النسخ وقابلية التوسع.

المرونة

ضمن تشغيل نشاط نسخة واحدة، يحتوي Azure Data Factory على آلية إعادة محاولة مضمنة، والتي تمكِّنه من التعامل مع مستوى معين من حالات الفشل المؤقت في مخازن البيانات أو في الشبكة الأساسية.

باستخدام نشاط نسخ Azure Data Factory، عند نسخ البيانات بين مخازن البيانات المصدر والمخزن، لديك طريقتان للتعامل مع الصفوف غير المتوافقة. يمكنك إما وقف نشاط النسخ وفشله أو الاستمرار في نسخ باقي البيانات عن طريق تخطي صفوف البيانات غير المتوافقة. وبالإضافة إلى ذلك، لمعرفة سبب الفشل، يمكنك تسجيل الصفوف غير المتوافقة في تخزين Azure Blob أو Azure Data Lake Store وإصلاح البيانات الموجودة في مصدر البيانات وإعادة محاولة نشاط النسخ.

أمن الشبكة

بشكل افتراضي، ينقل Azure Data Factory البيانات من خادم Netezza الداخلي إلى حساب تخزين Azure أو قاعدة بيانات Azure Synapse Analytics باستخدام اتصال مشفر عبر بروتوكول نقل النص التشعبي الآمن (HTTPS). يوفر HTTPS تشفير البيانات أثناء النقل ويمنع التنصت والهجمات بين الرجال في الوسط.

وبدلاً من ذلك، إذا كنت لا تريد نقل البيانات عبر الإنترنت العامّ، فيمكنك المساعدة في تحقيق مستوى أعلى من الأمان عن طريق نقل البيانات عبر ارتباط تناظري خاص عبر Azure Express Route.

يناقش القسم التالي كيفية تحقيق مستوى أمان أعلى.

هيكل الحل

يناقش هذا القسم طريقتَين لترحيل بياناتك.

ترحيل البيانات عبر الإنترنت العامّ

ترحيل البيانات عبر الإنترنت العامّ

يمكن تفسير الرسم البياني السابق على النحو التالي:

  • في هذه البنية، تقوم بنقل البيانات بأمان باستخدام HTTPS عبر الإنترنت العامّ.

  • لتحقيق هذه البنية، تحتاج إلى تثبيت وقت تشغيل تكامل Azure Data Factory (مستضاف ذاتياً) على جهاز يعمل بنظام Windows خلف جدار حماية الشركة. تأكد من أن وقت تشغيل التكامل هذا يمكنه الوصول مباشرةً إلى خادم Netezza. لاستخدام النطاق الترددي للشبكة ومخازن البيانات بشكل كامل لنسخ البيانات، يمكنك رفع مستوى جهازك يدوياً أو توسيع نطاقه ليشمل أجهزة متعددة.

  • باستخدام هذه البنية، يمكنك ترحيل كل من بيانات اللقطة الأولية وبيانات دلتا.

ترحيل البيانات عبر شبكة خاصة

ترحيل البيانات عبر شبكة خاصة

يمكن تفسير الرسم البياني السابق على النحو التالي:

  • في هذه البنية، تقوم بترحيل البيانات عبر ارتباط اقتران خاص عبر Azure Express Route، ولا تنتقل البيانات أبداً عبر الإنترنت العامّ.

  • لتحقيق هذه البنية، تحتاج إلى تثبيت وقت تشغيل تكامل Azure Data Factory (مستضاف ذاتياً) على جهاز ظاهري يعمل بنظام Windows (VM) داخل شبكة Azure الافتراضية الخاصة بك. لاستخدام النطاق الترددي لشبكتك ومخازن البيانات بشكل كامل لنسخ البيانات، يمكنك توسيع نطاق الجهاز الافتراضي يدوياً أو توسيع نطاقه ليشمل أجهزة افتراضية متعددة.

  • باستخدام هذه البنية، يمكنك ترحيل كل من بيانات اللقطة الأولية وبيانات دلتا.

تنفيذ أفضل الممارسات

إدارة المصادقة وبيانات الاعتماد

ترحيل بيانات اللقطة الأولية

بالنسبة إلى الجداول الصغيرة (أي الجداول التي يقل حجمها عن 100 جيجابايت أو التي يمكن ترحيلها إلى Azure في غضون ساعتَين)، يمكنك جعل بيانات تحميل مهمة كل نسخة لكل جدول. لزيادة الإنتاجية، يمكنك تشغيل عدة مهام نسخ Azure Data Factory لتحميل جداول منفصلة بشكل متزامن.

ضمن كل مهمة نسخ، لتشغيل الاستعلامات المتوازية ونسخ البيانات حسب الأقسام، يمكنك أيضا الوصول إلى مستوى ما من التوازي باستخدام parallelCopies إعداد الخاصية مع أي من خيارات قسم البيانات التالية:

  • للمساعدة في تحقيق كفاءة أكبر، نشجعك على البدء من شريحة بيانات. تأكد من أن القيمة في parallelCopies الإعداد أقل من العدد الإجمالي لأقسام شريحة البيانات في الجدول الخاص بك على خادم Netezza.

  • إذا كان حجم كل قسم من أقسام شريحة البيانات لا يزال كبيراً (على سبيل المثال، 10 جيجابايت أو أكثر)، فإننا نشجعك على التبديل إلى قسم النطاق الديناميكي. يمنحك هذا الخيار قدراً أكبر من المرونة لتحديد عدد الأقسام، وحجم كل قسم حسب عمود القسم، والحد الأعلى، والحد الأدنى.

بالنسبة للجداول الأكبر (أي الجداول بحجم 100 غيغابايت أو أكبر أو التي لا يمكن ترحيلها إلى Azure في غضون ساعتين)، نوصي بتقسيم البيانات حسب الاستعلام المخصص ثم جعل كل نسخة مهمة نسخ قسما واحدا في كل مرة. للحصول على إنتاجية أفضل، يمكنك تشغيل العديد من مهام نسخ Azure Data Factory بشكل متزامن. لكل هدف وظيفة نسخ لتحميل قسم واحد بواسطة استعلام مخصص، ويمكنك زيادة الإنتاجية عن طريق تمكين التوازي عبر شريحة البيانات أو النطاق الديناميكي.

إذا فشلت أي مهمة نسخ بسبب مشكلة عابرة في الشبكة أو مخزن البيانات، يمكنك إعادة تشغيل مهمة النسخ الفاشلة لإعادة تحميل هذا القسم المحدد من الجدول. لا تتأثر مهام النسخ الأخرى التي تقوم بتحميل أقسام أخرى.

عند تحميل البيانات في قاعدة بيانات Azure Synapse Analytics، نقترح أن تقوم بتمكين PolyBase في مهمة النسخ مع تخزين Azure Blob كتدريج.

ترحيل بيانات دلتا

لتحديد الصفوف الجديدة أو المحدثة من الجدول، استخدم عمود الطابع الزمني أو مفتاحاً متزايداً داخل المخطط. يمكنك بعد ذلك تخزين أحدث قيمة كعلامة مائية عالية في جدول خارجي ثم استخدامها لتصفية بيانات دلتا في المرة التالية التي تقوم فيها بتحميل البيانات.

يمكن لكل جدول استخدام عمود علامة مائية مختلف لتحديد صفوفه الجديدة أو المحدثة. نقترح أن تقوم بإنشاء جدول تحكم خارجي. في الجدول، يمثل كل صف جدولاً واحداً على خادم Netezza مع اسم عمود العلامة المائية المحدد وقيمة العلامة المائية العالية.

تكوين وقت تشغيل تكامل مستضاف ذاتياً

إذا كنت تقوم بترحيل البيانات من خادم Netezza إلى Azure، سواء أكان الخادم محلياً خلف جدار حماية مؤسستك أو داخل بيئة شبكة افتراضية، فأنت بحاجة إلى تثبيت IR مستضاف ذاتياً على جهاز يعمل بنظام Windows أو جهاز افتراضي، وهو المحرك المستخدم لنقل البيانات. أثناء قيامك بتثبيت IR المستضاف ذاتياً، نوصي باتباع النهج التالي:

  • لكل جهاز يعمل بنظام Windows أو جهاز افتراضي، ابدأ بتكوين 32 وحدة معالجة مركزية (vCPU) وذاكرة بسعة 128 جيجابايت. يمكنك الاستمرار في مراقبة استخدام وحدة المعالجة المركزية والذاكرة لجهاز وقت تشغيل التكامل أثناء ترحيل البيانات لمعرفة ما إذا كنت بحاجة إلى زيادة مستوى الجهاز للحصول على أداء أفضل أو تقليص الجهاز لتوفير التكلفة.

  • يمكنك أيضاً التوسع من خلال ربط ما يصل إلى أربع عقد بـ IR واحد مستضاف ذاتياً. تقوم مهمة النسخ الفردية التي تعمل مقابل IR المستضاف ذاتياً بتطبيق جميع عقد VM تلقائياً لنسخ البيانات بالتوازي. للإتاحة العالية، ابدأ بأربع عقد للجهاز الافتراضي لتجنب نقطة واحدة من الفشل أثناء ترحيل البيانات.

الحد من الأقسام الخاصة بك

كأفضل ممارسة، قم بإجراء إثبات أداء للمفهوم (POC) باستخدام عينة نموذجية لمجموعة بيانات، بحيث يمكنك تحديد حجم القسم المناسب لكل نشاط نسخ. نقترح عليك تحميل كل قسم إلى Azure في غضون ساعتَين.

لنسخ جدول، ابدأ بنشاط نسخة واحدة باستخدام جهاز IR واحد مستضاف ذاتياً. قم بزيادة parallelCopies الإعداد تدريجيا استنادا إلى عدد أقسام شريحة البيانات في الجدول. تعرف على ما إذا كان يمكن تحميل الجدول بأكمله إلى Azure في غضون ساعتَين، وفقاً للإنتاجية التي تنتج من مهمة النسخ.

إذا تعذر تحميله إلى Azure في غضون ساعتَين، ولم يتم استخدام سعة عقدة IR المستضافة ذاتياً ومخزن البيانات بشكل كامل، فقم بزيادة عدد أنشطة النسخ المتزامنة تدريجياً حتى تصل إلى الحد الأقصى لشبكتك أو حد النطاق الترددي لمخازن البيانات.

استمر في مراقبة استخدام وحدة المعالجة المركزية والذاكرة على جهاز IR المستضاف ذاتياً، وكن مستعداً لتوسيع نطاق الجهاز أو توسيع نطاقه ليشمل أجهزة متعددة عندما ترى أن وحدة المعالجة المركزية والذاكرة مستخدمتان بالكامل.

عندما تواجه أخطاء تقييد، كما تم الإبلاغ عنها بواسطة نشاط نسخ Azure Data Factory، إما تقليل التزامن أو parallelCopies الإعداد في Azure Data Factory، أو مراعاة زيادة النطاق الترددي أو عمليات الإدخال/الإخراج في الثانية (IOPS) للشبكة ومخازن البيانات.

تقدير أسعارك

ضع في اعتبارك الناقل التالي، الذي تم إنشاؤه لترحيل البيانات من خادم Netezza الداخلي إلى قاعدة بيانات Azure Synapse Analytics:

مسار التسعير

لنفترض أن العبارات التالية صحيحة:

  • إجمالي حجم البيانات 50 تيرابايت (TB).

  • نقوم بترحيل البيانات باستخدام بنية الحل الأول (خادم Netezza محلي، خلف جدار الحماية).

  • ينقسم حجم 50 تيرابايت إلى 500 قسم، وينقل كل نشاط نسخ قسماً واحداً.

  • يتم تكوين كل نشاط نسخ باستخدام IR واحد مستضاف ذاتياً مقابل أربعة أجهزة، ويحقق سرعة نقل تبلغ 20 ميجابايت في الثانية (MBps). (ضمن نشاط النسخ، parallelCopies يتم تعيين إلى 4، ويحقق كل مؤشر ترابط لتحميل البيانات من الجدول معدل نقل 5 ميغابت في الثانية.)

  • تم تعيين التزامن ForEach على 3، والإنتاجية الإجمالية 60 ميجابت في الثانية.

  • إجمالاً، يستغرق إكمال الترحيل 243 ساعة.

بناءً على الافتراضات السابقة، إليك السعر المقدر:

جدول التسعير

إشعار

التسعير الموضح في الجدول السابق هو سعر افتراضي. يعتمد التسعير الفعلي على الإنتاجية الفعلية في بيئتك. لا يتم تضمين سعر جهاز Windows (مع تثبيت IR ذاتي الاستضافة).

مراجع إضافية

لمزيد من المعلومات، راجع المقالات والأدلة التالية: