مقدمة إلى الجيل الثاني من تخزين Azure Data Lake

الجيل الثاني من تخزين Azure Data Lake هو مجموعة من القدرات المخصصة لعمليات تحليل البيانات الضخمة على Azure Blob Storage.

تتلاقى قدرات الجيل الثاني من تخزين Azure Data Lake مع قدرات الجيل الأول من تخزين Azure Data Lake من خلال Azure Blob Storage. على سبيل المثال، يوفر الجيل الثاني من تخزين Azure Data Lake دلالات نظام الملفات والأمان على مستوى الملف والحجم. نظرا لأن هذه الإمكانات مبنية على تخزين Blob، فإنك تحصل أيضا على تخزين منخفض التكلفة ومتدرج، مع إمكانات قابلية وصول عالية/استرداد البيانات بعد الكوارث.

Data Lake Storage Gen2 يجعل Azure Storage الأساس لبناء مستودعات بيانات المؤسسة على Azure. تم تصميمها منذ البداية لخدمة عدد من البيتابايت من المعلومات مع الحفاظ على مئات الجيجابت من الإنتاجية، يسمح Data Lake Storage Gen2 لك بإدارة كميات هائلة من البيانات بسهولة.

ما هي Data Lake؟

مستودع البيانات هو مستودع مركزي واحد حيث يمكنك تخزين جميع بياناتك؛ سواء كانت مُهيكلة أو غير مُهيكلة. يتيح مستودع البيانات لمؤسستك تخزين مجموعة متنوعة من البيانات والوصول إليها وتحليلها بسرعةٍ وبسهولةٍ أكبر في موقعٍ واحد. باستخدام مستودع البيانات، لا تحتاج إلى مطابقة بياناتك لتلائم بنية موجودة. بدلًا من ذلك، يمكنك تخزين البيانات بتنسيقها الأولي أو الأصلي، عادةً باعتبارها ملفات أو كائنات ثنائية كبيرة (blobs).

Azure Data Lake Storage هو حل مستودع بيانات المنشأة المستند إلى السحابة. صُمم لتخزين كميات هائلة من البيانات بأي تنسيق، ولتسهيل أحمال العمل التحليلية للبيانات الضخمة. يمكنك استخدامه لتسجيل البيانات من أي نوع واستيعابها بسرعةٍ في موقع واحد لسهولة الوصول إليها وتحليلها باستخدام أطر عمل متنوعة.

Data Lake Storage Gen2

يشير Azure Data Lake Storage Gen2 إلى التنفيذ الحالي للحل Data Lake Storage Azure. سيتم إيقاف التنفيذ السابق، Azure Data Lake Storage Gen1 في 29 فبراير 2024.

على عكس Data Lake Storage Gen1، Data Lake Storage Gen2 ليست خدمة مخصصة أو نوع حساب. بدلا من ذلك، يتم تنفيذه كم مجموعة من القدرات التي تستخدمها مع خدمة Blob Storage لحساب Azure Storage الخاص بك. يمكنك إلغاء تأمين هذه الإمكانات عن طريق تمكين إعداد مساحة الاسم الهرمية.

يتضمن Data Lake Storage Gen2 الإمكانات التالية.

✓ الوصول المتوافق مع Hadoop

✓ بنية الدليل الهرمي

✓ التكلفة والأداء المحسنان

✓ نموذج أمان الحبوب الدقيقة

✓ قابلية التوسع الضخمة

وصول متوافق مع Hadoop

تم تصميم Azure Data Lake Storage Gen2 بشكل أساسي للعمل مع Hadoop وجميع أطر العمل التي تستخدم نظام الملفات الموزعة Apache Hadoop (HDFS) كطبقة وصول إلى البيانات الخاصة بهم. تتضمن توزيعات Hadoop برنامج تشغيل نظام ملفات Azure Blob (ABFS)، والذي يمكن العديد من التطبيقات وأطر العمل من الوصول إلى بيانات Azure Blob Storage مباشرة. تم تحسين برنامج تشغيل ABFS خصيصا لتحليلات البيانات الضخمة. تظهر واجهات برمجة التطبيقات REST المطابقة من خلال نقطة النهاية dfs.core.windows.net .

أطر عمل تحليل البيانات التي تستخدم HDFS حيث يمكن لطبقة الوصول إلى البيانات الخاصة بها الوصول مباشرة إلى البيانات Azure Data Lake Storage Gen2 من خلال ABFS. يعد محرك تحليلات Apache Spark ومحرك استعلام Presto SQL أمثلة على مثل أطر العمل هذه.

لمزيد من المعلومات حول الخدمات والأنظمة الأساسية المدعومة، راجع خدمات Azure التي تدعم Azure Data Lake Storage Gen2والأنظمة الأساسية مفتوحة المصدر التي تدعم Azure Data Lake Storage Gen2.

بنية الدليل الهرمي

مساحة الاسم الهرمية هي ميزة رئيسية تمكن Azure Data Lake Storage Gen2 من توفير وصول عالي الأداء إلى البيانات على نطاق تخزين الكائن وسعره. يمكنك استخدام هذه الميزة لتنظيم جميع العناصر والملفات داخل حساب التخزين الخاص بك في تسلسل هرمي للدلائل والدلائل الفرعية المتداخلة. بمعنى آخر، يتم تنظيم بيانات Azure Data Lake Storage Gen2 بنفس الطريقة التي يتم بها تنظيم الملفات على الكمبيوتر.

تصبح عمليات مثل إعادة تسمية أو حذف الأدلة بمثابة عمليات بيانات وصفية دقيقة في الدليل. لا حاجة إلى عدِّ ومعالجة كافة العناصر التي تشترك في بادئة اسم المجلد.

التكلفة والأداء المحسنان

يتم تسعير Azure Data Lake Storage Gen2 على مستويات تخزين Azure Blob. يعتمد على قدرات Azure Blob Storage مثل إدارة نهج دورة الحياة التلقائية ومستوى الكائن لإدارة تكاليف تخزين البيانات الضخمة.

تم تحسين الأداء لأنك لا تحتاج إلى نسخ البيانات أو تحويلها كشرط أساسي للتحليل. تسمح إمكانية مساحة الأسماء الهرمية لـ Azure Data Lake Storage بالوصول والتنقل الفعّال. تعني هذه البنية أن معالجة البيانات تتطلب موارد حسابية أقل، ما يقلل من سرعة وتكلفة الوصول إلى البيانات.

نموذج أمان دقيق

يدعم نموذج التحكم في الوصول Azure Data Lake Storage Gen2 كلا من التحكم في الوصول المستند إلى دور Azure (Azure RBAC) وواجهة نظام التشغيل المحمولة لقوائم التحكم في الوصول UNIX (POSIX) (ACLs). هناك أيضا بعض إعدادات الأمان الإضافية الخاصة Azure Data Lake Storage Gen2. يمكنك تعيين الأذونات إما على مستوى الدليل أو على مستوى الملف. يجري تشفير جميع البيانات المُخزنة في وضع غير نشط باستخدام مفاتيح التشفير التي تديرها Microsoft أو التي يديرها العميل.

قابلية التوسع الهائلة

يوفر Azure Data Lake Storage Gen2 تخزينا ضخما ويقبل العديد من أنواع البيانات للتحليلات. لا يفرض أي قيود على أحجام الحسابات أو أحجام الملفات أو كمية البيانات التي يمكن تخزينها في مستودع البيانات. يمكن أن تحتوي الملفات الفردية على أحجام تتراوح من بضعة كيلوبايت (KBs) إلى بضعة بيتابايت (PBs). تُنفذ عملية المعالجة خلال مدة الانتظار لكل طلب ثابت تقريبا والتي يتم قياسها على مستويات الخدمة والحساب والملف.

يعني هذا التصميم أن Azure Data Lake Storage Gen2 يمكن توسيع نطاقها بسهولة وسرعة لتلبية أحمال العمل الأكثر تطلبا. يمكن أيضًا تضييق نطاقه بسهولة عند انخفاض الطلب.

مبني على Azure Blob Storage

تستمر البيانات التي تقوم بتخزينها ككائنات ثنائية كبيرة الحجم في حساب التخزين. الخدمة التي تدير الكائنات الثنائية كبيرة الحجم هي خدمة Azure Blob Storage. يصف Data Lake Storage Gen2 القدرات أو "التحسينات" لهذه الخدمة التي تلبي متطلبات أحمال العمل التحليلية للبيانات الضخمة.

نظرا لأن هذه الإمكانات مبنية على Blob Storage، تتوفر ميزات مثل التسجيل التشخيصي، طبقات الوصول، ونهج إدارة دورة الحياة لحسابك. يتم دعم معظم ميزات Blob Storage بشكل كامل، ولكن قد يتم دعم بعض الميزات فقط على مستوى المعاينة وهناك عدد قليل منها غير مدعوم حتى الآن. للحصول على قائمة كاملة من عبارات الدعم، راجع دعم ميزة Blob Storage في حسابات Azure Storage. ستتغير حالة كل ميزة مدرجة بمرور الوقت مع استمرار توسيع الدعم.

الوثائق والمصطلحات

يحتوي جدول محتويات Azure Blob Storage على قسمين من المحتوى. يوفر قسم Data Lake Storage Gen2 من المحتوى أفضل الممارسات والإرشادات لاستخدام قدرات Data Lake Storage Gen2. يوفر قسم Blob Storage من المحتوى إرشادات لميزات الحساب غير الخاصة Data Lake Storage Gen2.

أثناء التنقل بين الأقسام، قد تلاحظ بعض الاختلافات الطفيفة في المصطلحات. على سبيل المثال، سيستخدم المحتوى المميز في وثائق Blob Storage مصطلح blob بدلا من الملف. من الناحية الفنية، تصبح الملفات التي تستوعبها في حساب التخزين الخاص بك نقاطا في حسابك. لذلك، فإن المصطلح صحيح. ومع ذلك، يمكن أن يسبب مصطلح blob ارتباكا إذا كنت معتادا على مصطلح ملف . سترى أيضا مصطلح الحاوية المستخدم للإشارة إلى نظام الملفات. اعتبر هذه المصطلحات مترادفة.

راجع أيضًا