مناطق وحاويات مستودع البيانات
من المهم تخطيط بنية البيانات قبل أن تصلها إلى مستودع بيانات. عندما يكون لديك خطة، يمكنك استخدام الأمان والتقسيم والمعالجة بشكل فعال.
للحصول على نظرة عامة على مستودعات البيانات، راجع نظرة عامة على Azure Data Lake Storage للتحليات على نطاق السحابة.
نظرة عامة
يجب أن تتوافق حسابات مستودع البيانات الثلاثة الخاصة بك مع طبقات مستودع البيانات النموذجية.
رقم البحيرة | الطبقات | رقم الحاوية | اسم الحاوية |
---|---|---|---|
1 | RAW | 1 | الهبوط |
1 | RAW | 2 | التوافق |
2 | المخصب | 1 | الموحده |
2 | منسق | 2 | منتجات البيانات |
3 | التطوير | 1 | بيئة الاختبار المعزولة ل Analytics |
3 | التطوير | # | رقم التخزين الأساسي ل Synapse |
يعرض الجدول السابق العدد القياسي للحاويات التي نوصي بها لكل منطقة منتقل إليها البيانات. الاستثناء من هذه التوصية هو إذا كانت هناك حاجة إلى نهج حذف مبدئي مختلفة للبيانات الموجودة في حاوية. تحدد هذه المتطلبات حاجتك إلى المزيد من الحاويات.
ملاحظة
يتم توضيح ثلاث مستودعات بيانات في كل منطقة من مناطق البيانات المنتقل إليها. يقع مستودع البيانات عبر ثلاثة حسابات مستودع بيانات وحاويات ومجلدات متعددة، ولكنه يمثل مستودع بيانات منطقيا واحدا لمنطقة البيانات المنتقل إليها.
اعتمادا على متطلباتك، قد ترغب في دمج الطبقات الأولية والمثرية والمنسقة في حساب تخزين واحد. احتفظ بحساب تخزين آخر باسم "التطوير" لمستهلكي البيانات لإحضار منتجات بيانات مفيدة أخرى.
لمزيد من المعلومات حول فصل حسابات مستودع البيانات، راجع حسابات التخزين في مستودع بيانات منطقي.
قم بتمكين Azure Storage باستخدام ميزة مساحة الاسم الهرمية، والتي تسمح لك بإدارة الملفات بكفاءة. تنظم ميزة مساحة الاسم الهرمية العناصر والملفات داخل حساب في تسلسل هرمي للدلائل والدلائل الفرعية المتداخلة. يتم تنظيم هذا التسلسل الهرمي بنفس طريقة تنظيم نظام الملفات على الكمبيوتر الخاص بك.
عندما يسجل محرك الاستيعاب غير المحدد للبيانات أو تطبيق الإلحاق نظاما جديدا للسجل، فإنه ينشئ المجلدات المطلوبة في حاويات في طبقات البيانات الأولية والمثرية والموحدة. إذا كان تطبيق البيانات المتوافقة مع المصدر ي استيعاب البيانات، يحتاج فريق تطبيق البيانات إلى فريق منطقة البيانات المنتقل إليها لإنشاء المجلدات ومجموعات الأمان. ضع اسم مبدأ الخدمة أو الهوية المدارة في المجموعة الصحيحة، وقم بتعيين مستوى أذونات. توثيق هذه العملية لمنطقة البيانات المنتقل إليها وفرق تطبيقات البيانات.
لمزيد من المعلومات حول الفرق، راجع فهم الأدوار والفرق للتحليات على نطاق السحابة في Azure.
يجب أن يحتوي كل منتج بيانات على مجلدين في حاوية منتجات البيانات التي يمتلكها فريق منتج البيانات.
في الطبقة المثرية للحاوية الموحدة، هناك مجلدان لكل نظام مصدر، مقسومين على التصنيف. باستخدام هذه البنية، يمكن لفريقك تخزين البيانات التي تحتوي على تصنيفات أمان وبيانات مختلفة بشكل منفصل، وتعيين وصول أمان مختلف إليها.
تحتاج الحاوية الموحدة إلى مجلد عام للبيانات السرية أو أدناه ومجلد حساس للبيانات الشخصية. التحكم في الوصول إلى هذه المجلدات باستخدام قوائم التحكم في الوصول (ACLs). يمكنك إنشاء مجموعة بيانات مع إزالة جميع البيانات الشخصية وتخزينها في المجلد العام. يمكنك الحصول على مجموعة بيانات أخرى تتضمن جميع البيانات الشخصية في مجلد البيانات الشخصية الحساسة .
تعمل مجموعة من قوائم التحكم في الوصول ومجموعات Azure Active Directory (Azure AD) على تقييد الوصول إلى البيانات. تتحكم هذه القوائم والمجموعات في ما يمكن للمجموعات الأخرى الوصول إليه ولا يمكنها الوصول إليه. يمكن لمالكي البيانات وفرق تطبيقات البيانات الموافقة على الوصول إلى أصول البيانات الخاصة بهم أو رفضه.
لمزيد من المعلومات، راجع إدارة الوصول إلى البياناتوالبيانات المقيدة.
تحذير
لا تدعم بعض منتجات البرامج تحميل جذر حاوية مستودع البيانات. وبسبب هذا القيد، يجب أن تحتوي كل حاوية مستودع بيانات في طبقات أولية ومنسقة ومثرية وتطويرية على مجلد واحد يفرع إلى مجلدات متعددة. قم بإعداد أذونات المجلد بعناية. عند إنشاء مجلد جديد من الجذر، تحدد قائمة التحكم بالوصول الافتراضية على الدليل الأصل قائمة التحكم بالوصول الافتراضية للدليل الفرعي والوصول إلى قائمة التحكم بالوصول. لا يحتوي ACL الخاص بملف تابع على قائمة التحكم بالوصول الافتراضية.
لمزيد من المعلومات، راجع قوائم التحكم في الوصول (ACLs) في Azure Data Lake Storage Gen2.
طبقة أولية أو مستودع بيانات واحد
فكر في الطبقة الخام على أنها خزان يخزن البيانات في حالتها الطبيعية والأصلية. إنه غير مصنف وغير مصلح. يمكنك تخزين البيانات بتنسيقها الأصلي، مثل JSON أو CSV. أو قد يكون تخزين محتويات الملف عمودا بتنسيق ملف مضغوط، مثل Avro أو Parquet أو Databricks Delta Lake.
هذه البيانات الأولية غير قابلة للتغيير. حافظ على تأمين بياناتك الأولية، وإذا منحت أذونات لأي مستهلكين، تلقائيا أو بشريا، فتأكد من أنها للقراءة فقط. يمكنك تنظيم هذه الطبقة باستخدام مجلد واحد لكل نظام مصدر. امنح كل عملية استيعاب حق الوصول للكتابة إلى المجلد المقترن بها فقط.
عند تحميل البيانات من أنظمة المصدر إلى المنطقة الأولية، يمكنك اختيار القيام بما يلي:
- الأحمال الكاملة لاستخراج مجموعة بيانات كاملة.
- يتم تحميل Delta لتحميل البيانات التي تم تغييرها فقط.
الإشارة إلى نمط التحميل الذي اخترته في بنية المجلد لتبسيط الاستخدام لمستهلكي البيانات.
تهبط البيانات الأولية من أنظمة المصدر لكل تطبيق بيانات متوافق مع المصدر أو مصدر محرك الاستيعاب التلقائي في المجلد الكامل أو مجلد دلتا. يجب أن يكون لكل عملية استيعاب حق الوصول للكتابة إلى المجلد المقترن بها فقط.
الاختلافات بين الأحمال الكاملة وأحمال دلتا هي:
التحميل الكامل - يمكن إلحاق البيانات الكاملة من المصدر إذا:
- حجم البيانات في المصدر صغير.
- لا يحتفظ النظام المصدر بالحقل الطابع الزمني الذي يحدد ما إذا كانت البيانات قد تمت إضافتها أو تحديثها أو حذفها.
- يقوم النظام المصدر بالكتابة فوق البيانات الكاملة في كل مرة.
تحميل Delta - يمكن إلحاق البيانات المتزايدة من المصدر إذا:
- حجم البيانات في المصدر كبير.
- يحتفظ النظام المصدر بالحقل الطابع الزمني الذي يحدد ما إذا كانت البيانات قد تمت إضافتها أو تحديثها أو حذفها.
- يقوم النظام المصدر بإنشاء وتحديث الملفات على تغييرات البيانات.
تتكون بحيرة البيانات الأولية الخاصة بك من حاويات الهبوط والتوافق. تستخدم كل حاوية بنية مجلد إلزامية بنسبة 100٪ خاصة لغرضها.
تخطيط الحاوية المنتقل إليها
الحاوية المنتقل إليها محجوزة للبيانات الأولية من نظام مصدر معروف. يقوم محرك الاستيعاب غير المحدد للبيانات أو تطبيق البيانات المتوافق مع المصدر بتحميل البيانات، والتي لم يتم تغييرها وفي تنسيقها الأصلي المدعوم.
.
|-Landing
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------{date (ex. rundate=2019-08-22)}
|------Full
حاوية توافق الطبقة الخام
تحتوي الطبقة الأولية الخاصة بك على بيانات متوافقة مع جودة البيانات. عند نسخ البيانات إلى حاوية منتقل إليها، يتم تشغيل معالجة البيانات والحوسبة لنسخ البيانات من الحاوية المنتقل إليها إلى حاوية التوافق. في هذه المرحلة الأولى، يتم تحويل البيانات إلى تنسيق delta lake وتهبط في مجلد إدخال. عند تشغيل جودة البيانات، يتم نسخ السجلات التي تمر إلى مجلد الإخراج. السجلات التي تفشل في الوصول إلى مجلد خطأ.
.
|-Conformance
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------Delta
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}
|------Full
|-------Input
|--------{date (ex. rundate=2019-08-22)}
|-------Output
|--------{date (ex. rundate=2019-08-22)}
|-------Error
|--------{date (ex. rundate=2019-08-22)}
تلميح
فكر في السيناريوهات التي قد تحتاج فيها إلى إعادة إنشاء نظام أساسي للتحليات من البداية. ضع في اعتبارك البيانات الأكثر دقة التي تحتاجها لإعادة إنشاء مخازن بيانات قراءة انتقال البيانات من الخادم. تأكد من أن لديك خطة لاستمرارية الأعمال والإصلاح بعد كارثة لمكوناتك الرئيسية.
طبقة غنية أو مستودع بيانات اثنين
فكر في الطبقة التي تم إثراؤها كطبقة ترشيح. فهو يزيل الشوائب ويمكن أن ينطوي أيضا على الإثراء.
تحتوي حاوية التوحيد القياسي الخاصة بك على أنظمة السجلات والنماذج الرئيسية. يتم تقسيم المجلدات أولا حسب منطقة الموضوع، ثم حسب الكيان. تتوفر البيانات في جداول مدمجة ومقسمة تم تحسينها لاستهلاك التحليلات.
حاوية قياسية
.
|-Standardized
|--Log
|---{Application Name}
|--Master and Reference
|---{Source System}
|--Telemetry
|---{Source System}
|----{Application}
|--Transactional
|---{Source System}
|----{Entity}
|-----{Version}
|------General
|--------{date (ex. rundate=2019-08-22)}
|-------Sensitive
|--------{date (ex. rundate=2019-08-22)}
ملاحظة
تعتبر طبقة البيانات هذه الطبقة الفضية أو مصدر بيانات القراءة. لم يتم تطبيق أي تحويلات داخل هذه الطبقة على البيانات بخلاف جودة البيانات وتحويل مستودع دلتا ومحاذاة نوع البيانات.
يوضح الرسم التخطيطي التالي تدفق مستودعات البيانات والحاويات من البيانات المصدر إلى حاوية موحدة.
طبقة منسقة أو مستودع بيانات اثنين
الطبقة المنسقة هي طبقة الاستهلاك الخاصة بك. تم تحسينه للتحليات بدلا من استيعاب البيانات أو معالجتها. قد تخزن الطبقة المنسقة البيانات في متاجر بيانات غير منسقة أو مخططات نجمية.
يتم تحويل البيانات من الحاوية الموحدة إلى منتجات بيانات عالية القيمة يتم تقديمها لمستهلكي البيانات. تحتوي هذه البيانات على بنية. يمكن تقديمه للمستهلكين كما هو، مثل دفاتر ملاحظات علوم البيانات، أو من خلال مخزن بيانات قراءة آخر، مثل قاعدة بيانات Azure SQL.
استخدم أدوات، مثل Spark أو Data Factory، للقيام بنمذجة الأبعاد بدلا من القيام بذلك داخل محرك قاعدة البيانات. يصبح هذا الاستخدام للأدوات نقطة رئيسية إذا كنت تريد جعل بحيرتك مصدرا واحدا للحقيقة.
إذا قمت بنمذجة الأبعاد خارج بحيرتك، فقد ترغب في نشر النماذج مرة أخرى إلى بحيرتك للاتساق. هذه الطبقة ليست بديلا لمستودع البيانات. عادة ما يكون أدائه غير كاف للوحات المعلومات المتجاوبة أو التحليلات التفاعلية للمستخدم والمستهلك. هذه الطبقة هي الأنسب للمحللين الداخليين وعلماء البيانات الذين يديرون استعلامات أو تحليلات مرتجلة واسعة النطاق، أو للمحللين المتقدمين الذين ليس لديهم احتياجات إعداد التقارير الحساسة للوقت. نظرا لأن تكاليف التخزين أقل في مستودع البيانات الخاص بك من مستودع البيانات الخاص بك، فقد يكون من الفعال من حيث التكلفة الاحتفاظ ببيانات دقيقة ومنخفضة المستوى في مستودعك. تخزين البيانات المجمعة في المستودع الخاص بك. قم بإنشاء هذه التجميعات باستخدام Spark أو Azure Data Factory. استمر في استخدامها في مستودع البيانات قبل تحميلها في مستودع البيانات الخاص بك.
عادة ما تكون أصول البيانات في هذه المنطقة خاضعة لإدارة عالية وموثقة جيدا. تعيين الأذونات حسب القسم أو حسب الوظيفة، وتنظيم الأذونات حسب مجموعة المستهلكين أو متجر البيانات.
حاوية منتجات البيانات
.
|-{Data Product}
|---{Entity}
|----{Version}
|-----General
|-------{date (ex. rundate=2019-08-22)}
|------Sensitive
|-------{date (ex. rundate=2019-08-22)}
تلميح
عند نقل البيانات في مخزن بيانات قراءة آخر، مثل Azure SQL Database، تأكد من أن لديك نسخة من تلك البيانات الموجودة في بياناتك المنسقة. يتم توجيه مستخدمي منتج البيانات إلى مخزن بيانات القراءة الرئيسي أو مثيل قاعدة بيانات Azure SQL، ولكن يمكنهم أيضا استكشاف البيانات باستخدام أدوات إضافية إذا قمت بتوفير البيانات في مستودع البيانات الخاص بك.
طبقة التطوير أو مستودع البيانات ثلاثة
يمكن لمستهلكي البيانات إحضار منتجات بيانات مفيدة أخرى جنبا إلى جنب مع البيانات التي تم استيعابها في الحاوية الموحدة.
في هذا السيناريو، يمكن للنظام الأساسي للبيانات تخصيص منطقة بيئة الاختبار المعزولة للتحليات لهؤلاء المستهلكين. في بيئة الاختبار المعزولة، يمكنهم إنشاء رؤى قيمة باستخدام البيانات المنسقة ومنتجات البيانات التي يجلبونها. على سبيل المثال، إذا أراد فريق علوم البيانات تحديد أفضل استراتيجية لوضع المنتج لمنطقة جديدة، فيمكنه إحضار منتجات بيانات أخرى، مثل التركيبة السكانية للعملاء وبيانات الاستخدام، من منتجات مماثلة في تلك المنطقة. يمكن للفريق استخدام رؤى المبيعات عالية القيمة من هذه البيانات لتحليل ملاءمة سوق المنتج واستراتيجية العرض.
ملاحظة
منطقة الاختبار المعزولة للتحليات هي منطقة عمل للفرد أو مجموعة صغيرة من المتعاونين. تحتوي مجلدات منطقة الاختبار المعزولة على مجموعة خاصة من النهج التي تمنع محاولات استخدام هذه المنطقة كجزء من حل الإنتاج. تحد هذه النهج من إجمالي التخزين المتاح ومدة تخزين البيانات.
عادة ما تكون منتجات البيانات هذه ذات جودة ودقة غير معروفة. لا تزال مصنفة كمنتجات بيانات، ولكنها مؤقتة وملائمة فقط لمجموعة المستخدمين التي تستخدم البيانات.
عندما تنضج منتجات البيانات هذه، يمكن لمؤسستك ترقية منتجات البيانات هذه إلى طبقة البيانات المنسقة. للحفاظ على فرق منتجات البيانات الخاصة بك مسؤولة عن منتجات البيانات الجديدة، قم بتزويد الفرق بمجلد مخصص في منطقة البيانات المنسقة. يمكنهم تخزين نتائج جديدة في المجلد ومشاركتها مع فرق أخرى عبر مؤسستك.
ملاحظة
لكل مساحة عمل Azure Synapse تقوم بإنشائها، استخدم مستودع البيانات الثالث لإنشاء حاوية لاستخدامها كمساحة تخزين أساسية. تمنع هذه الحاوية مساحات عمل Azure Synapse من التداخل مع حدود معدل نقل المناطق المنسقة والمثرية.
مثال على تدفق البيانات إلى بيئة الاختبار المعزولة للمنتجات والتحليلات
يجمع الرسم التخطيطي التالي المعلومات الواردة في هذه المقالة ويوضح كيفية تدفق البيانات إلى بيئة الاختبار المعزولة لمنتجات البيانات والتحليلات.