ترقية Azure Blob Storage باستخدام قدرات Azure Data Lake Storage
تساعدك هذه المقالة على تمكين مساحة اسم هرمية وإلغاء تأمين الإمكانات مثل الأمان على مستوى الملفات والدليل والعمليات الأسرع. تستخدم هذه القدرات على نطاق واسع من قبل أحمال عمل تحليلات البيانات الضخمة ويشار إليها مجتمعة باسم Azure Data Lake Storage. تشمل القدرات الأكثر شعبية ما يلي:
معدل نقل أعلى، وعمليات إدخال/إخراج في الثانية (IOPS)، وحدود سعة التخزين.
عمليات أسرع (مثل عمليات إعادة التسمية) لأنه يمكنك العمل على عناوين URI الفردية للعقدة.
محرك استعلام فعال ينقل فقط البيانات المطلوبة لتنفيذ عملية معينة.
الأمان على مستوى الحاوية والدليل والملف.
لمعرفة المزيد عنها، راجع مقدمة إلى Azure Data Lake Storage.
تساعدك هذه المقالة على تقييم التأثير على أحمال العمل والتطبيقات والتكاليف وتكامل الخدمات والأدوات والميزات والوثائق. تأكد من مراجعة هذه التأثيرات بعناية. عندما تكون مستعدا لترقية حساب، راجع هذا الدليل خطوة بخطوة: ترقية Azure Blob Storage باستخدام قدرات Azure Data Lake Storage.
هام
الترقية في اتجاه واحد. لا توجد طريقة لإعادة حسابك بمجرد إجراء الترقية. نوصيك بالتحقق من ترقيتك في بيئة غير إنتاجية.
التأثير على التوفر
تأكد من التخطيط لبعض وقت التوقف عن العمل في حسابك في أثناء اكتمال عملية الترقية. يتم تعطيل عمليات الكتابة في أثناء ترقية حسابك. لا يتم تعطيل عمليات القراءة، ولكن نوصي بشدة بإيقاف عمليات القراءة مؤقتا، حيث قد تؤدي هذه العمليات إلى زعزعة استقرار عملية الترقية.
التأثير على أحمال العمل والتطبيقات
تعمل واجهات برمجة تطبيقات Blob مع الحسابات التي تحتوي على مساحة أسماء هرمية، لذلك تستمر معظم التطبيقات التي تتفاعل مع حسابك باستخدام واجهات برمجة التطبيقات هذه في العمل دون تعديل.
للحصول على قائمة كاملة بالمشكلات والحلول، راجع المشكلات المعروفة في واجهات برمجة تطبيقات Blob Storage.
يجب تعديل أي أحمال عمل Hadoop تستخدم برنامج تشغيل Windows Azure Storage Blob (WASB) لاستخدام برنامج تشغيل نظام ملفات Azure Blob (ABFS). على عكس برنامج تشغيل WASB الذي يقدم طلبات إلى نقطة نهاية خدمة ;كائن ثنائي كبير الحجم، سيقوم برنامج تشغيل ABFS بتقديم طلبات إلى نقطة النهاية Data Lake Storage لحسابك.
نقطة نهاية Data Lake Storage
سيحتوي حسابك الذي تمت ترقيته على نقطة نهاية Data Lake Storage. يمكنك العثور على عنوان URL لنقطة النهاية هذه في مدخل Microsoft Azure عن طريق فتح صفحة خصائص في حسابك.
لست مضطرًا إلى تعديل تطبيقاتك وأحمال العمل الحالية لاستخدام نقطة النهاية هذه. يتيح لك الوصول متعدد البروتوكولات في Data Lake Storage استخدام نقطة نهاية خدمة Blob أو نقطة نهاية Data Lake Storage للتفاعل مع بياناتك.
قد تستخدم خدمات وأدوات Azure (مثل AzCopy) نقطة نهاية Data Lake Storage للتفاعل مع البيانات الموجودة في حساب التخزين الخاص بك. ستحتاج أيضا إلى استخدام نقطة النهاية الجديدة هذه لأي عمليات تقوم بها باستخدام Data Lake Storage SDKs أو أوامر PowerShell أو أوامر Azure CLI.
الدلائل
يقوم حساب تخزين Blob الذي لا يحتوي على مساحة أسماء هرمية بتنظيم الملفات في نموذج مسطح، بدلًا من نموذج هرمي. يتم تنظيم Blobs في أدلة افتراضية من أجل محاكاة بنية مجلد. يشكل الدليل الظاهري جزءاً من اسم الكائنات الثنائية كبيرة الحجم ويشار إليه بالحرف المحدد. نظرًا لأن الدليل الظاهري هو جزء من اسم النقطة، فإنه غير موجود بالفعل ككائن مستقل.
يحتوي حسابك الجديد على مساحة أسماء هرمية. وهذا يعني أن الدلائل ليست افتراضية. إنها كائنات ملموسة ومستقلة يمكنك العمل عليها مباشرة. يمكن أن يوجد دليل دون أن يحتوي على أي ملفات. عند حذف دليل، تتم إزالة كافة الملفات الموجودة في هذا الدليل. لم تعد تحتاج إلى حذف كل كائن ثنائي كبير الحجم فردي قبل اختفاء الدليل.
بيانات تعريف Blob
قبل الترحيل، تقترن بيانات تعريف الكائن الثنائي كبير الحجم باسم الكائن الثنائي كبير الحجم مع مساره الظاهري بأكمله. بعد الترحيل، ترتبط البيانات الوصفية فقط بالنقطة. يصبح المسار الظاهري إلى الكائن الثنائي كبير الحجم مجموعة من الأدلة. لا يتم تطبيق البيانات الوصفية للكائن الثنائي الكبير الحجم على أي من هذه الأدلة.
ضع عمليات
عند تحميل كائن ثنائي كبير الحجم، ويتضمن المسار الذي تحدده دليلا غير موجود، تقوم العملية بإنشاء هذا الدليل، ثم إضافة الكائن الثنائي كبير الحجم إليه. هذا السلوك منطقي في سياق بنية مجلد هرمي. في حساب تخزين Blob الذي لا يحتوي على مساحة أسماء هرمية، لا تقوم العملية بإنشاء دليل. بدلا من ذلك، تتم إضافة اسم الدليل إلى اسم الكائن الثنائي كبير الحجم.
عمليات القائمة
تقوم عملية List Blobs بإرجاع كل من الدلائل والملفات. يتم سرد كل منها على حدة. تظهر الدلائل في القائمة ككائنات ثنائية كبيرة الحجم بطول صفري. في حساب تخزين Blob الذي لا يحتوي على مساحة أسماء هرمية، تقوم عملية List Blobs بإرجاع الكائنات الثنائية كبيرة الحجم فقط وليس الدلائل. إذا كنت تستخدم مسار تخزين Data Lake - عملية القائمة ، فستظهر الدلائل كإدخالات دليل وليس ككائنات ثنائية كبيرة الحجم ذات طول صفري.
ترتيب القائمة مختلف أيضًا. تظهر الدلائل والملفات بترتيب البحث الأول المتعمق. يسرد حساب تخزين Blob الذي لا يحتوي على مساحة أسماء هرمية الكائنات الثنائية كبيرة الحجم بترتيب معجمي.
عمليات لإعادة تسمية الكائنات الثنائية كبيرة الحجم
تعد إعادة تسمية الكائن الثنائي الكبير الحجم أكثر كفاءة لأن تطبيقات العميل يمكنها إعادة تسمية كائن ثنائي كبير الحجم في عملية واحدة. في الحسابات التي لا تحتوي على مساحة أسماء هرمية، يجب على الأدوات والتطبيقات نسخ كائن ثنائي كبير الحجم ثم حذف الكائن الثنائي الكبير الحجم المصدر.
إشعار
عند إعادة تسمية كائن ثنائي كبير الحجم، لا يتم تحديث آخر وقت تم تعديله من الكائن الثنائي الكبير الحجم. وذلك لأن محتويات الكائن الثنائي الكبير الحجم لم تتغير.
التأثير على التكاليف
لا توجد تكلفة لإجراء الترقية. بعد الترقية، لا تتغير تكلفة تخزين بياناتك، ولكن تتغير تكلفة المعاملة. استخدم هذه الصفحات لتقييم تكاليف المقارنة.
أسعار Azure Data Lake Storage.
يمكنك أيضًا استخدام خيار حسابات التخزين في حاسبة تسعير Azure لتقدير تأثير التكاليف بعد الترقية.
بصرف النظر عن تغييرات التسعير، ضع في اعتبارك وفورات التكلفة المرتبطة بقدرات Data Lake Storage. عادة ما ينخفض إجمالي تكلفة الملكية بسبب ارتفاع معدل النقل والعمليات المحسنة. يتيح لك معدل النقل الأعلى نقل المزيد من البيانات في وقت أقل. تعمل مساحة الأسماء الهرمية على تحسين كفاءة العمليات.
التأثير على تكامل الخدمات
بينما ستستمر معظم عمليات تكامل خدمة Azure في العمل بعد تمكين هذه الإمكانات، يظل بعضها قيد المعاينة أو غير مدعوم بعد. راجع خدمات Azure التي تدعم Azure Data Lake Storage لفهم الدعم الحالي لتكاملات خدمة Azure مع Data Lake Storage.
التأثير على الأدوات والميزات والوثائق
بعد الترقية، ستتغير الطريقة التي تتفاعل بها مع بعض الميزات. يصف هذا القسم هذه التغييرات.
دعم ميزة Blob Storage
بينما ستستمر معظم ميزات تخزين Blob في العمل بعد تمكين هذه الإمكانات، يظل بعضها قيد المعاينة أو غير مدعوم بعد.
راجع ميزات Blob Storage المتوفرة في Azure Data Lake Storage لفهم الدعم الحالي لميزات تخزين Blob مع Data Lake Storage.
سجلات التشخيص
إذا قمت بتمكين تسجيل تحليلات التخزين، فلديك الآن خيار استخدام تنسيق سجل الإصدار 2.0.
ليس عليك استخدام هذا الإصدار الجديد. ومع ذلك، يتم تسجيل أي عمليات يتم تطبيقها على نقطة نهاية تخزين Data Lake فقط في سجلات الإصدار 2.0. ستستخدم بعض الخدمات والأدوات التي تستخدمها (مثل AzCopy) نقطة النهاية هذه لتنفيذ العمليات على حسابك. للتأكد من التقاط معلومات التسجيل من كل النشاط، فكر في استخدام تنسيق سجل الإصدار 2.0.
إدارة Azure Lifecycle
يشرح بشكل فعال أن نهج نقل أو حذف كافة الكائنات الثنائية كبيرة الحجم في دليل لن تحذف الدليل نفسه حتى تتم إزالة جميع الكائنات الثنائية كبيرة الحجم داخله، وستتم إزالة الدليل في اليوم التالي.
Event Grid
يحتوي حسابك الجديد على نقطتي نهاية: نقطة نهاية تخزين Data Lake ونقطة نهاية خدمة Blob. يمكن للخدمات والأدوات والتطبيقات استخدام أي من نقطتي النهاية للعمل على بياناتك. ونتيجة لذلك، يمكن أن تظهر استجابة الحدث التي يتم إرجاعها بواسطة شبكة الأحداث أيًا من هاتين النقطتين النهائيتين في حقل عنوان URL الذي يصف الكائن الثنائي الكبير الحجم المتأثرة.
يعرض JSON التالي عنوان URL لكائن ثنائي كبير الحجم تظهر في استجابة الحدث عند إنشاء كائن ثنائي كبير الحجم باستخدام نقطة نهاية خدمة Blob.
{
"topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
"subject": "/blobServices/default/containers/test-container/blobs/new-file.txt",
"eventType": "Microsoft.Storage.BlobCreated",
"eventTime": "2017-06-26T18:41:00.9584103Z",
"id": "831e1650-001e-001b-66ab-eeb76e069631",
"data": {
"api": "PutBlockList",
"clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
"requestId": "831e1650-001e-001b-66ab-eeb76e000000",
"eTag": "\"0x8D4BCC2E4835CD0\"",
"contentType": "text/plain",
"contentLength": 524288,
"blobType": "BlockBlob",
"url": "https://my-storage-account.blob.core.windows.net/testcontainer/new-file.txt",
"sequencer": "00000000000004420000000000028963",
"storageDiagnostics": {
"batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
}
},
"dataVersion": "",
"metadataVersion": "1"
}
يعرض JSON التالي عنوان URL لكائن ثنائي كبير الحجم تظهر في استجابة الحدث عند إنشاء كائن ثنائي كبير الحجم باستخدام نقطة نهاية تخزين Data Lake.
{
"topic": "/subscriptions/{subscription-id}/resourceGroups/Storage/providers/Microsoft.Storage/storageAccounts/my-storage-account",
"subject": "/blobServices/default/containers/my-file-system/blobs/new-file.txt",
"eventType": "Microsoft.Storage.BlobCreated",
"eventTime": "2017-06-26T18:41:00.9584103Z",
"id": "831e1650-001e-001b-66ab-eeb76e069631",
"data": {
"api": "CreateFile",
"clientRequestId": "6d79dbfb-0e37-4fc4-981f-442c9ca65760",
"requestId": "831e1650-001e-001b-66ab-eeb76e000000",
"eTag": "\"0x8D4BCC2E4835CD0\"",
"contentType": "text/plain",
"contentLength": 0,
"contentOffset": 0,
"blobType": "BlockBlob",
"url": "https://my-storage-account.dfs.core.windows.net/my-file-system/new-file.txt",
"sequencer": "00000000000004420000000000028963",
"storageDiagnostics": {
"batchId": "b68529f3-68cd-4744-baa4-3c0498ec19f0"
}
},
"dataVersion": "2",
"metadataVersion": "1"
}
إذا كانت تطبيقاتك تستخدم شبكة الأحداث، فقد تضطر إلى تعديل هذه التطبيقات لأخذ ذلك في الاعتبار.
مستكشف التخزين
لا تظهر الأزرار التالية بعد في شريط Azure Storage Explorer:
الزر | السبب |
---|---|
نسخ عنوان URL | لم يتم تنفيذها بعد |
إدارة اللقطات | لم يتم تنفيذها بعد |
إلغاء الحذف | يعتمد على ميزات تخزين Blob غير المدعومة بعد مع Data Lake Storage |
تتصرف الأزرار التالية بشكل مختلف في حسابك الجديد.
الزر | سلوك تخزين الكائن الثنائي الكبير الحجم | سلوك Data Lake Storage |
---|---|---|
مجلد | المجلد افتراضي ويختفي إذا لم تقم بإضافة ملفات إليه. | المجلد موجود حتى مع عدم إضافة ملفات إليه. |
إعادة تسمية | ينتج عنه نسخة ثم حذف من الكائن الثنائي الكبير الحجم المصدر | يعيد تسمية نفس الكائن الثنائي الكبير الحجم. أكثر كفاءة بكثير. |
الوثائق
يمكنك العثور على إرشادات لاستخدام قدرات Data Lake Storage هنا: مقدمة إلى Azure Data Lake Storage.
لم يتغير شيء فيما يتعلق بالمكان الذي تجد فيه الإرشادات الخاصة بجميع ميزات تخزين Blob الحالية. هذا التوجيه موجود هنا: مقدمة حول تخزين Azure Blob.
في أثناء التنقل بين مجموعات المحتوى، ستلاحظ بعض الاختلافات الطفيفة في المصطلحات. على سبيل المثال، قد يستخدم المحتوى المميز في محتوى Data Lake Storage مصطلح نظام الملفات والملفات بدلا من الكائن الثنائي كبير الحجم والحاوية. إن الملفات ونظام الملفات الخاص بالمصطلحات متجذران بعمق في عالم تحليلات البيانات الضخمة حيث كان لتخزين Data Lake تاريخ طويل. يحتوي المحتوى على هذه الشروط لإبقائه مرتبطًا بهذه الجماهير. هذه المصطلحات لا تصف أشياء منفصلة.
الخطوات التالية
عندما تكون مستعدا لترقية حساب التخزين الخاص بك لتضمين قدرات Data Lake Storage، راجع هذا الدليل خطوة بخطوة.