نظرة عامة على Azure Data Lake Storage للتحليات على نطاق السحابة

Azure Data Lake هو تخزين بيانات قابل للتطوير وآمن بشكل كبير لأحمال عمل التحليلات عالية الأداء. يمكنك إنشاء حسابات تخزين داخل مجموعة موارد واحدة للتحليات على نطاق السحابة. نوصي بتوفير ثلاثة حسابات Azure Data Lake Storage Gen2 داخل مجموعة موارد واحدة مشابهة لمجموعة الموارد الموضحة storage-rg في المقالة نظرة عامة على منطقة هبوط بيانات بنية التحليلات على نطاق السحابة.

يخزن كل حساب تخزين داخل منطقة البيانات المنتقل إليها البيانات في إحدى المراحل الثلاث:

  • البيانات البسيطة
  • البيانات المثرية والمنسقة
  • مستودعات بيانات التطوير

يمكن أن يستهلك تطبيق البيانات بيانات ثرية ومنسقة من حساب تخزين تم استيعابه لخدمة استيعاب بيانات تلقائية غير محددة. يمكنك إنشاء تطبيق بيانات متوافق مع المصدر إذا لم تقم بتنفيذ محرك البيانات غير المحدد أو تسهيل الاتصالات المعقدة لاستيعاب البيانات من مصادر تشغيلية. يتبع تطبيق البيانات هذا نفس تدفق محرك البيانات غير محدد عند استيعاب البيانات من مصادر البيانات الخارجية.

يدعم Data Lake Storage Gen2 قوائم التحكم في الوصول الدقيقة (ACLs) التي تحمي البيانات على مستويات الملفات والمجلدات. يمكن أن تساعد قوائم التحكم في الوصول مؤسستك على تنفيذ تدابير أمنية مشددة للمصادقة والتخويل لمنتجات البيانات من أجل:

  • تخزين البيانات بأمان من خلال التشفير في حالة الثبات.
  • عناصر التحكم في الوصول لمستخدمي Azure Active Directory (Azure AD) ومجموعات الأمان من خلال تكامل Azure AD.

تخطيط مستودع البيانات

عند التخطيط لمستودع بيانات، ضع في اعتبارك دائما الاعتبار المناسب للبنية والحوكمة والأمان. تؤثر عوامل متعددة على بنية كل مستودع بيانات وتنظيمه:

  • نوع البيانات المخزنة
  • كيفية تحويل بياناته
  • من يصل إلى بياناته
  • ما هي أنماط الوصول النموذجية الخاصة به

تجميع المستهلكين والمنتجين بناء على احتياجات الوصول إلى البيانات الخاصة بهم. من الجيد التخطيط للتنفيذ وإدارة التحكم في الوصول عبر مستودع البيانات الخاص بك.

إذا كان مستودع البيانات الخاص بك يحتوي على بعض أصول البيانات والعمليات التلقائية مثل استخراج وتحويل وتحميل (ETL)، فمن المحتمل أن يكون التخطيط الخاص بك سهلا إلى حد ما. إذا كان مستودع البيانات الخاص بك يحتوي على مئات أصول البيانات ويتضمن تفاعلا تلقائيا ويدويا، فتوقع قضاء وقت أطول في التخطيط، حيث ستحتاج إلى المزيد من التعاون من مالكي البيانات.

قياس مستنقع البيانات

مستنقع البيانات هو مستودع بيانات غير مدار لا يمكن للمستخدمين الوصول إليه تقريبا. تحدث مستنقعات البيانات عندما لا تنفذ مقاييس جودة البيانات وإدارة البيانات. يمكنك أحيانا رؤية مستنقع بيانات في مستودع بيانات مع نماذج مختلطة موجودة.

تمنع الإدارة السليمة والتنظيم مستنقعات البيانات. عند إنشاء أساس متين لمستودع البيانات الخاص بك، فإنه يزيد من فرصتك في نجاح مستودع البيانات المستدام وقيمة الأعمال.

مع زيادة حجم وتعقيد وعدد أصول البيانات وعدد المستخدمين أو الأقسام في مستودع البيانات الخاص بك، من المهم بشكل متزايد أن يكون لديك نظام كتالوج بيانات قوي. يضمن نظام كتالوج البيانات الخاص بك أن المستخدمين يمكنهم العثور على البيانات ووضع علامة عليها وتصنيفها أثناء معالجة مستودع البيانات واستهلاكها والتحكم فيها.

لمزيد من المعلومات، راجع نظرة عامة على إدارة البيانات.

حسابات التخزين في مستودع بيانات منطقي

ضع في اعتبارك ما إذا كانت مؤسستك بحاجة إلى حساب تخزين واحد أو أكثر، وفكر في أنظمة الملفات التي تحتاجها لإنشاء مستودع البيانات المنطقي. توفر تقنية التخزين الفردي أساليب متعددة للوصول إلى البيانات وتساعدك على توحيدها عبر مؤسستك.

Data Lake Storage Gen2 هو نظام أساسي مدار بالكامل كخدمة (PaaS). لا يمكن أن تتحمل حسابات التخزين المتعددة أو أنظمة الملفات تكلفة نقدية حتى يتم الوصول إلى البيانات أو تخزينها. لاحظ أن كل مورد من موارد Azure قد ربط النفقات الإدارية والتشغيلية أثناء التوفير والأمان والحوكمة، بما في ذلك النسخ الاحتياطية والإصلاح بعد كارثة.

ملاحظة

يتم توضيح ثلاث مستودعات بيانات في كل منطقة من مناطق البيانات المنتقل إليها. ومع ذلك، اعتمادا على متطلباتك، قد تكون قادرا على دمج الطبقات الأولية والمثرية والمنسقة في حساب تخزين واحد. يمكنك إنشاء حساب تخزين آخر يسمى "التطوير" حيث يمكن لمستهلكي البيانات إحضار منتجات بيانات مفيدة أخرى.

ضع في اعتبارك العوامل التالية عند اتخاذ قرار بين نهج حساب تخزين موحد أو ثلاثة:

  • عزل بيئات البيانات وإمكانية التنبؤ
    • يمكنك عزل الأنشطة التي تعمل في المناطق الأولية ومناطق التطوير لتجنب التأثير المحتمل على المنطقة المنسقة، والتي تحتوي على بيانات ذات قيمة تجارية كبيرة مطلوبة لاتخاذ القرارات الهامة
  • الميزات والوظائف على مستوى حساب التخزين
    • يمكنك اختيار ما إذا كان يجب تطبيق خيارات إدارة دورة الحياة أو قواعد جدار الحماية على منطقة البيانات المنتقل إليها أو مستوى مستودع البيانات.
    • إنشاء حسابات تخزين متعددة، ولكن ليس الصوامع غير المرغوب فيها.
    • تجنب مشاريع البيانات المكررة من نقص الرؤية أو مشاركة المعرفة عبر مؤسستك.
    • تأكد من أن لديك إدارة جيدة للبيانات وأدوات تعقب المشاريع وكتالوج بيانات في مكانه.
  • تفاعل أدوات وتقنيات معالجة البيانات مع البيانات عبر مستودعات متعددة استنادا إلى الأذونات المكونة
  • البحيرات الإقليمية مقابل العالمية
    • المستهلكين أو العمليات الموزعة عالميا على البحيرة حساسة لزمن الانتقال الناجم عن المسافات الجغرافية.
    • يعد تخزين البيانات محليا ممارسة جيدة.
    • يمكن أن تتطلب القيود التنظيمية وسيادة البيانات بقاء البيانات في منطقة معينة.
    • لمزيد من المعلومات، راجع عمليات التوزيع متعددة المناطق.

عمليات النشر المتعددة المناطق

عند الإملاء بواسطة قواعد موقع البيانات أو شرط الاحتفاظ بالبيانات بالقرب من قاعدة مستخدم، قد تحتاج إلى إنشاء حسابات Azure Data Lake في مناطق Azure متعددة. للقيام بذلك، قم بإنشاء منطقة هبوط بيانات في منطقة واحدة، ثم نسخ البيانات العمومية باستخدام AzCopy أو Azure Data Factory أو منتجات الجهات الخارجية. تعيش البيانات المحلية في المنطقة، بينما يتم نسخ البيانات العمومية عبر مناطق متعددة.

الخطوات التالية

مناطق وحاويات مستودع البيانات