نقل البيانات إلى تخزين Azure Blob

إذا كان سير العمل يتضمن نقل البيانات إلى تخزين Azure Blob، فتأكد من استخدام استراتيجية فعالة. يجب إنشاء ذاكرة التخزين المؤقت، وإضافة حاوية كائن ثنائي كبير الحجم كهدف تخزين، ثم نسخ بياناتك باستخدام Azure HPC Cache.

تشرح هذه المقالة أفضل الطرق لنقل البيانات إلى تخزين كائن ثنائي كبير الحجم للاستخدام مع Azure HPC Cache.

تلميح

لا تنطبق هذه المقالة على تخزين blob المثبت على NFS (أهداف تخزين ADLS-NFS). يمكنك استخدام أي أسلوب يستند إلى NFS لملء حاوية كائن ثنائي كبير الحجم ADLS-NFS قبل إضافتها إلى HPC Cache أو بعد ذلك. اقرأ بيانات التحميل المسبق باستخدام بروتوكول NFS لمعرفة المزيد.

ضع هذه الحقائق في الاعتبار:

  • يستخدم Azure HPC Cache تنسيق تخزين متخصص لتنظيم البيانات في تخزين كائن ثنائي كبير الحجم. هذا هو السبب في أن هدف تخزين كائن ثنائي كبير الحجم يجب أن يكون إما حاوية جديدة فارغة أو حاوية كائن ثنائي كبير الحجم تم استخدامها مسبقا لبيانات Azure HPC Cache.

  • نسخ البيانات من خلال Azure HPC Cache إلى هدف تخزين خلفي أكثر كفاءة عند استخدام عملاء متعددين وعمليات متوازية. سيؤدي أمر نسخ بسيط من عميل واحد إلى نقل البيانات ببطء.

تعمل الاستراتيجيات الموضحة في هذه المقالة لملء حاوية كائن ثنائي كبير الحجم فارغة أو لإضافة ملفات إلى هدف تخزين مستخدم مسبقا.

نسخ البيانات من خلال Azure HPC Cache

تم تصميم Azure HPC Cache لخدمة عملاء متعددين في وقت واحد، لذلك لنسخ البيانات من خلال ذاكرة التخزين المؤقت، يجب استخدام عمليات الكتابة المتوازية من عملاء متعددين.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

cp الأوامر أو copy التي تستخدمها عادة لنقل البيانات من نظام تخزين إلى آخر هي عمليات مترابطة واحدة تنسخ ملفا واحدا فقط في كل مرة. وهذا يعني أن خادم الملفات ي استيعاب ملف واحد فقط في كل مرة - وهو مضيعة لموارد ذاكرة التخزين المؤقت.

يشرح هذا القسم استراتيجيات إنشاء نظام نسخ ملفات متعدد العملاء متعدد مؤشرات الترابط لنقل البيانات إلى تخزين كائن ثنائي كبير الحجم باستخدام Azure HPC Cache. وهو يشرح مفاهيم نقل الملفات ونقاط القرار التي يمكن استخدامها لنسخ البيانات بكفاءة باستخدام عملاء متعددين والأوامر البسيطة للنسخ.

كما يشرح بعض الأدوات المساعدة التي يمكن أن تساعد. msrsync يمكن استخدام الأداة المساعدة لأتمتة عملية تقسيم مجموعة بيانات جزئيا إلى مستودعات واستخدام أوامر rsync. parallelcp البرنامج النصي هو أداة مساعدة أخرى تقرأ الدليل المصدر وتصدر أوامر النسخ تلقائيا.

التخطيط الاستراتيجي

عند إنشاء استراتيجية لنسخ البيانات بالتوازي، يجب أن تفهم المقايضات في حجم الملف وعدد الملفات وعمق الدليل.

  • عندما تكون الملفات صغيرة، يكون مقياس الاهتمام هو الملفات في الثانية.
  • عندما تكون الملفات كبيرة (10MiBi أو أكبر)، يكون مقياس الاهتمام وحدات البايت في الثانية.

كل عملية نسخ لها معدل نقل ومعدل نقل الملفات، والتي يمكن قياسها عن طريق توقيت طول أمر النسخ وعامل حجم الملف وعدد الملفات. إن شرح كيفية قياس الأسعار خارج نطاق هذا المستند، ولكن من الضروري فهم ما إذا كنت ستتعامل مع ملفات صغيرة أو كبيرة.

تتضمن إستراتيجيات استيعاب البيانات المتوازية مع Azure HPC Cache ما يلي:

  • النسخ اليدوي - يمكنك إنشاء نسخة متعددة مؤشرات الترابط يدويا على عميل عن طريق تشغيل أكثر من أمر نسخة واحدة في وقت واحد في الخلفية مقابل مجموعات محددة مسبقا من الملفات أو المسارات. قراءة استيعاب بيانات Azure HPC Cache - أسلوب النسخ اليدوي للحصول على التفاصيل.

  • النسخ التلقائي جزئيا مع msrsync - msrsync هو أداة تضمين الأداة المساعدة التي تقوم بتشغيل عمليات متوازية rsync متعددة. للحصول على التفاصيل، اقرأ استيعاب بيانات Azure HPC Cache - أسلوب msrsync.

  • النسخ النصي باستخدام parallelcp - تعرف على كيفية إنشاء برنامج نصي متوازي للنسخ وتشغيله في استيعاب بيانات Azure HPC Cache - أسلوب البرنامج النصي للنسخ المتوازي.

الخطوات التالية

بعد إعداد التخزين الخاص بك، تعرف على كيفية تحميل العملاء لذاكرة التخزين المؤقت.