فهم Azure Data Lake Storage Gen2

مكتمل

مستودع البيانات هو موقع تخزين للبيانات الذي يتم تخزينه في شكله الطبيعي، وعادة ما يكون blobs أو ملفات. Azure Data Lake Storage هو حل مستودع بيانات شامل وقابل للتطوير بشكل كبير وآمن وفعال من حيث التكلفة لتحليلات عالية الأداء مدمجة في Azure.

Diagram representing files in Azure data Lake Storage Gen2 being accessed by big data technologies.

يجمع Azure Data Lake Storage بين نظام الملفات ونظام تخزين أساسي لمساعدتك في التعرف بسرعة على المعلومات الدقيقة حول بياناتك. يعتمد Data Lake Storage على قدرات تخزين Azure Blob لتحسينه خصيصا لأحمال عمل التحليلات. هذا التكامل يتيح أداء التحليلات، وقدرات إدارة مستويات ودورة حياة البيانات في تخزين Blob، وقدرات عالية التوافر، والأمان، والقدرة على الصمود في Azure Storage.

المزايا

تم تصميم Data Lake Storage للتعامل مع هذا التنوع وحجم البيانات على نطاق إكسابايت مع التعامل بأمان مع مئات الجيجابايت من معدل النقل. باستخدام هذا، يمكنك استخدام Data Lake Storage Gen2 كأساس لكل من حلول الوقت الفعلي والدفعات.

وصول متوافق مع Hadoop

تتمثل إحدى مزايا Data Lake Storage في أنه يمكنك التعامل مع البيانات كما لو كانت مخزنة في نظام الملفات الموزعة Hadoop (HDFS). باستخدام هذه الميزة، يمكنك تخزين البيانات في مكان واحد والوصول إليها من خلال تقنيات الحوسبة بما في ذلك Azure Databricks وAzure HDInsight وAzure Synapse Analytics دون نقل البيانات بين البيئات. يتمتع مهندس البيانات أيضا بالقدرة على استخدام آليات التخزين مثل تنسيق باركيه، وهو مضغوط للغاية وينفذ بشكل جيد عبر أنظمة أساسية متعددة باستخدام تخزين عمودي داخلي.

الأمان

يدعم Data Lake Storage قوائم التحكم في الوصول (ACLs) وأذونات واجهة نظام التشغيل المحمولة (POSIX) التي لا ترث أذونات الدليل الأصل. في الواقع، يمكنك تعيين أذونات على مستوى الدليل أو مستوى الملف للبيانات المخزنة داخل مستودع البيانات، ما يوفر نظام تخزين أكثر أمانا. هذا الأمان قابل للتكوين من خلال تقنيات مثل Hive وSpark أو الأدوات المساعدة مثل Azure Storage Explorer، الذي يعمل على Windows وmacOS وLinux. يتم تشفير كافة البيانات المخزنة في حالة سكون باستخدام مفاتيح Microsoft أو مفاتيح يديرها العميل.

الأداء

ينظم Azure Data Lake Storage البيانات المخزنة في تسلسل هرمي من الدلائل والأدلة الفرعية، مثل نظام الملفات، لتسهيل التنقل. نتيجة لذلك، تتطلب معالجة البيانات موارد حسابية أقل، ما يقلل الوقت والتكلفة.

تكرار البيانات

يستفيد Data Lake Storage من نماذج النسخ المتماثل ل Azure Blob التي توفر تكرار البيانات في مركز بيانات واحد مع تخزين متكرر محليا (LRS)، أو إلى منطقة ثانوية باستخدام خيار التخزين المتكرر جغرافيا (GRS). تضمن هذه الميزة أن بياناتك متاحة دائمًا ومحمية في حالة وقوع كارثة.

تلميح

كلما كان التخطيط لبحيرة بيانات، يجب أن يعطي مهندس البيانات اعتبارا مدروسا للهيكل وإدارة البيانات والأمان. وينبغي أن يشمل ذلك النظر في العوامل التي يمكن أن تؤثر على هيكل البحيرة وتنظيمها، مثل:

  • أنواع البيانات التي سيتم تخزينها
  • كيفية تحويل البيانات
  • يجب على روبوت Who الوصول إلى البيانات
  • ما هي أنماط الوصول النموذجية

سيساعد هذا النهج في تحديد كيفية التخطيط لإدارة التحكم في الوصول عبر مستودعك. يجب أن يكون مهندسو البيانات استباقيين في ضمان ألا تصبح البحيرة مستنقع البيانات المثل الذي يصبح غير قابل للوصول وغير مفيد للمستخدمين بسبب نقص إدارة البيانات وتدابير جودة البيانات. سيساعد إنشاء خط أساسي واتباع أفضل الممارسات ل Azure Data Lake في ضمان تنفيذ مناسب وقوي يسمح للمؤسسة بالنمو واكتساب رؤى لتحقيق المزيد.