استخدم Azure Data Factory لترحيل البيانات من Amazon S3 إلى خدمة تخزين Azure

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

يوفر مصنع البيانات Azure آلية أداء قوية وفعالة من حيث التكلفة لترحيل البيانات على نطاق واسع من Amazon S3 إلى تخزين Azure Blob أو Azure Data Lake Storage Gen2. توفر هذه المقالة المعلومات التالية لمهندسي البيانات والمطورين:

  • الأداء
  • مرونة النسخ
  • أمن الشبكة
  • تصميم حل رفيع المستوى
  • تنفيذ أفضل الممارسات

الأداء

يوفر ADF بنية بلا خادم تسمح بالتوازي على مستويات مختلفة، ما يسمح للمطورين بإنشاء خطوط أنابيب للاستفادة الكاملة من النطاق الترددي للشبكة والتخزين IOPS والنطاق الترددي لزيادة معدل نقل حركة البيانات للبيئة الخاصة بك.

نجح العملاء في ترحيل بيتابايت من البيانات التي تتكون من مئات الملايين من الملفات من Amazon S3 إلى Azure Blob Storage، مع إنتاجية مستدامة تبلغ 2 GBps وأعلى.

Diagram shows several file partitions in an A W S S3 store with associated copy actions to Azure Blob Storage A D L S Gen2.

توضح الصورة أعلاه كيف يمكنك تحقيق سرعات حركة بيانات كبيرة من خلال مستويات مختلفة من التوازي:

  • يمكن لنشاط نسخة واحدة الاستفادة من موارد الحوسبة القابلة للتطوير: عند استخدام وقت تشغيل تكامل Azure، يمكنك تحديد ما يصل إلى 256 وحدة DIUs لكل نشاط نسخ بطريقة بدون خادم؛ عند استخدام وقت تشغيل التكامل المستضاف ذاتيا، يمكنك توسيع نطاق الجهاز يدويا أو توسيع نطاقه إلى أجهزة متعددة (حتى أربع عقد)، وسيقوم نشاط نسخة واحدة بتقسيم مجموعة الملفات الخاصة به عبر جميع العقد.
  • نشاط نسخة واحدة يقرأ من ويكتب إلى مخزن البيانات باستخدام مؤشرات ترابط متعددة.
  • يمكن أن يبدأ تدفق التحكم في ADF أنشطة نسخ متعددة بالتوازي، على سبيل المثال باستخدام لكل حلقة.

المرونة

ضمن تشغيل نشاط نسخة واحدة، لدى ADF آلية إعادة محاولة مضمنة بحيث يمكنها معالجة مستوى معين من حالات الفشل العابرة في مخازن البيانات أو في الشبكة الأساسية.

عند القيام بنسخ ثنائي من S3 إلى النقطة ومن S3 إلى ADLS Gen2، يقوم ADF تلقائياً بتنفيذ نقاط التفتيش. إذا فشل تشغيل نشاط نسخة أو مهلة، في إعادة محاولة لاحقة، تستأنف النسخة من نقطة الفشل الأخيرة بدلاً من البدء من البداية.

أمن الشبكة

بشكل افتراضي، ينقل ADF البيانات من Amazon S3 إلى تخزين Azure Blob أو Azure Data Lake Storage Gen2 باستخدام اتصال مشفر عبر بروتوكول HTTPS. يوفر HTTPS تشفير البيانات أثناء النقل ويمنع التنصت والهجمات بين الرجال في الوسط.

بدلا من ذلك، إذا كنت لا تريد نقل البيانات عبر الإنترنت العام، يمكنك تحقيق أمان أعلى عن طريق نقل البيانات عبر ارتباط نظير خاص بين AWS Direct الاتصال وAzure Express Route. راجع بنية الحل في القسم التالي حول كيفية تحقيق ذلك.

هيكل الحل

ترحيل البيانات عبر الإنترنت العامّ:

Diagram shows migration over the Internet by H T T P from an A W S S3 store through Azure Integration Runtime in A D F Azure to Azure Storage. The runtime has a control channel with Data Factory.

  • في هذا التصميم، يتم نقل البيانات بشكل آمن باستخدام HTTPS عبر الإنترنت العام.
  • تم تكوين كل من مصدر Amazon S3 والوجهة Azure Blob Storage أو Azure Data Lake Storage Gen2 للسماح بنسبة استخدام الشبكة من جميع عناوين IP للشبكة. راجع البنية الثانية المشار إليها لاحقا في هذه الصفحة حول كيفية تقييد الوصول إلى الشبكة إلى نطاق IP محدد.
  • يمكنك بسهولة زيادة حجم القدرة الحصانية بطريقة بدون خادم للاستفادة الكاملة من الشبكة وعرض النطاق الترددي للتخزين حتى تتمكن من الحصول على أفضل إنتاجية لبيئتك.
  • يمكن تحقيق كل من ترحيل اللقطات الأولية وترحيل بيانات دلتا باستخدام هذا التصميم.

ترحيل البيانات عبر ارتباط خاص:

Diagram shows migration over a private peering connection from an A W S S3 store through self-hosted integration runtime on Azure virtual machines to V Net service endpoints to Azure Storage. The runtime has a control channel with Data Factory.

  • في هذا التصميم، يتم ترحيل البيانات عبر ارتباط نظير خاص بين AWS Direct وAzure Express Route بحيث لا تعبر البيانات عبر الإنترنت العامّ. يتطلب استخدام AWS VPC وشبكة Azure الظاهرية.
  • تحتاج إلى تثبيت وقت تشغيل تكامل ADF ذاتي الاستضافة على جهاز Windows VM داخل شبكة Azure الظاهرية لتحقيق هذا التصميم. يمكنك توسيع نطاق الأجهزة الظاهرية للأشعة تحت الحمراء المستضافة ذاتيا يدويا أو توسيع نطاقها إلى أجهزة ظاهرية متعددة (حتى أربع عقد) للاستفادة الكاملة من الشبكة والتخزين IOPS/النطاق الترددي.
  • يمكن تحقيق كل من ترحيل البيانات الأولية وترحيل بيانات دلتا باستخدام هذا التصميم.

تنفيذ أفضل الممارسات

المصادقة وإدارة الاعتماد

ترحيل بيانات نسخة المطابقة الأولية

يوصى بتقسيم البيانات خاصة عند ترحيل أكثر من 100 تيرابايت من البيانات. لتقسيم البيانات، استخدم إعداد "البادئة" لتصفية المجلدات والملفات في Amazon S3 بالاسم، ومن ثم يمكن لكل مهمة نسخ ADF نسخ قسم واحد في كل مرة. يمكنك تشغيل مهام نسخ ADF متعددة بشكل متزامن للحصول على معدل نقل أفضل.

إذا فشلت أي من مهام النسخ بسبب مشكلة عابرة في شبكة الاتصال أو مخزن البيانات، يمكنك إعادة تشغيل مهمة النسخ الفاشلة لإعادة تحميل هذا القسم المحدد مرة أخرى من AWS S3. لن تتأثر جميع مهام النسخ الأخرى التي تقوم بتحميل أقسام أخرى.

ترحيل بيانات دلتا

الطريقة الأكثر أداء لتحديد الملفات الجديدة أو المتغيرة من AWS S3 هي باستخدام اصطلاح التسمية المقسم زمنيا - عندما تكون بياناتك في AWS S3 مقسمة زمنيا بمعلومات شريحة الوقت في اسم الملف أو المجلد (على سبيل المثال، /yyyy/mm/dd/file.csv)، يمكن للبنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك بسهولة تحديد الملفات/المجلدات المراد نسخها بشكل متزايد.

بدلا من ذلك، إذا لم تكن بياناتك في AWS S3 مقسمة زمنيا، يمكن ل ADF تحديد الملفات الجديدة أو التي تم تغييرها بواسطة LastModifiedDate. الطريقة التي يعمل بها هو أن ADF سوف تفحص جميع الملفات من AWS S3، ونسخ الملف الجديد والمحدث الذي يكون آخر طابع زمني معدل له أكبر من قيمة معينة. إذا كان لديك عدد كبير من الملفات في S3، فقد يستغرق مسح الملفات الأولي وقتا طويلا بغض النظر عن عدد الملفات التي تطابق شرط عامل التصفية. في هذه الحالة، يقترح عليك تقسيم البيانات أولا، باستخدام نفس إعداد "البادئة" لترحيل اللقطة الأولية، بحيث يمكن أن يحدث مسح الملفات بالتوازي.

بالنسبة إلى السيناريوهات التي تتطلب وقت تشغيل تكامل ذاتي الاستضافة على Azure VM

سواء كنت تقوم بترحيل البيانات عبر ارتباط خاص أو تريد السماح لنطاق IP محدد على جدار حماية Amazon S3، تحتاج إلى تثبيت وقت تشغيل التكامل المستضاف ذاتيا على Azure Windows VM.

  • تكوين التوصية للبدء مع كل VM Azure Standard_D32s_v3 مع ذاكرة 32 vCPU و128 غيغابايت. يمكنك الاحتفاظ بمراقبة وحدة المعالجة المركزية واستخدام الذاكرة لأجهزة وقت تشغيل تكامل ترحيل البيانات لمعرفة ما إذا كنت بحاجة إلى زيادة حجم الجهاز الظاهري للحصول على أداء أفضل أو تقليص VM لتوفير التكلفة.
  • يمكنك أيضا التوسع عن طريق ربط ما يصل إلى أربع عقد VM مع وقت تشغيل التكامل المستضاف ذاتيا واحد. ستقوم مهمة نسخ واحدة تعمل مقابل وقت تشغيل التكامل المستضاف ذاتيا بتقسيم مجموعة الملفات تلقائيا واستخدام جميع عقد الجهاز الظاهري لنسخ الملفات بالتوازي. للحصول على قابلية وصول عالية، يوصى بالبدء بعقدتين للجهاز الظاهري لتجنب نقطة فشل واحدة أثناء ترحيل البيانات.

تحديد السعر

كأفضل ممارسة، قم بإجراء إثبات المبدأ للأداء باستخدام عينة مجموعة بيانات، بحيث يمكنك تحديد حجم القسم المناسب.

ابدأ بقسم واحد ونشاط نسخة واحدة مع إعداد DIU الافتراضي. قم بزيادة إعداد DIU تدريجيا حتى تصل إلى حد عرض النطاق الترددي للشبكة أو حد IOPS/عرض النطاق الترددي لمخازن البيانات، أو تصل إلى الحد الأقصى المسموح به في نشاط النسخة الواحدة وهو 256 وحدة DIU.

بعد ذلك، قم بزيادة عدد أنشطة النسخ المتزامنة تدريجياً حتى تصل إلى حدود البيئة الخاصة بك.

عندما تواجه أخطاء تقييد الاتصال عن نشاط النسخ ADF تقليل التزامن أو إعداد DIU في ADF أو خذ بعين الاعتبار زيادة حدود عرض النطاق الترددي/IOPS من مخازن البيانات وشبكة الاتصال.

تقدير السعر

إشعار

هذا مثال تسعير افتراضي. يعتمد التسعير الفعلي على الإنتاجية الفعلية في بيئتك.

خذ بعين الاعتبار الناقل التالي الذي تم إنشاؤه لترحيل البيانات من S3 إلى تخزين Azure Blob:

Diagram shows a pipeline for migrating data, with manual trigger flowing to Lookup, flowing to ForEach, flowing to a sub-pipeline for each partition that contains Copy flowing to Stored Procedure. Outside the pipeline, Stored Procedure flows to Azure SQL D B, which flows to Lookup and A W S S3 flows to Copy, which flows to Blob storage.

فلنفترض ما يلي:

  • إجمالي حجم البيانات هو 2 PB
  • ترحيل البيانات عبر HTTPS باستخدام تصميم الحل الأول
  • يتم تقسيم 2 PB إلى قسم واحد كيلوبايت وتنقل كل نسخة قسما واحدا
  • يتم تكوين كل نسخة مع وحدة DIU = 256 وتحقق 1 GBps الإنتاجية
  • ForEach يتم تعيين التزامن إلى 2 والإنتاجية الإجمالية هي 2 GBps
  • في المجموع، يستغرق 292 ساعة لإكمال الانتقال

إليك السعر المقدر استنادا إلى الافتراضات المذكورة أعلاه:

Screenshot of a table shows an estimated price.

مراجع إضافية

قالب

إليك القالب الذي يجب البدء به لترحيل بيتابايت من البيانات التي تتكون من مئات الملايين من الملفات من Amazon S3 إلى Azure Data Lake Storage Gen2.