ماذا يُقصد بمستودع البيانات؟
مستودع البيانات هو مستودع تخزين يحتوي على كمية كبيرة من البيانات بتنسيقها الأصلي الخام. تم تحسين مخازن مستودع البيانات لتوسيع حجمها إلى تيرابايت وبتابايت من البيانات. تأتي البيانات عادة من مصادر متنوعة متعددة ويمكن أن تتضمن بيانات منظمة أو شبه منظمة أو غير منظمة البنية. يساعدك مستودع البيانات على تخزين كل شيء في حالته الأصلية غير المترجمة. يختلف هذا الأسلوب عن مستودع البيانات التقليدي، الذي يحول البيانات ويعالجها في وقت الاستيعاب.
تتضمن حالات استخدام مستودع البيانات الرئيسية ما يلي:
- حركة بيانات السحابة وإنترنت الأشياء (IoT).
- معالجة البيانات الضخمة.
- تحليلات.
- الإبلاغ.
- حركة البيانات المحلية.
ضع في اعتبارك المزايا التالية لبحيرة البيانات:
لا تحذف مستودع البيانات البيانات أبدا لأنها تخزن البيانات بتنسيقها الخام. هذه الميزة مفيدة بشكل خاص في بيئة البيانات الضخمة لأنك قد لا تعرف مسبقا ما هي الرؤى التي يمكنك الحصول عليها من البيانات.
يمكن للمستخدمين استكشاف البيانات وإنشاء استعلاماتهم الخاصة.
قد يكون مستودع البيانات أسرع من أدوات الاستخراج والتحويل والتحميل (ETL) التقليدية.
مستودع البيانات أكثر مرونة من مستودع البيانات لأنه يمكنه تخزين البيانات غير المنظمة وشبه المنظمة.
يتكون حل مستودع البيانات الكامل من كل من التخزين والمعالجة. تم تصميم تخزين مستودع البيانات للتسامح مع الخطأ وقابلية التوسع اللانهائية واستيعاب معدل النقل العالي لمختلف أشكال البيانات وأحجامها. تتضمن معالجة مستودع البيانات محرك معالجة واحدا أو أكثر يمكن أن يتضمن هذه الأهداف ويمكن أن تعمل على البيانات المخزنة في مستودع بيانات على نطاق واسع.
متى يجب استخدام مستودع بيانات
نوصي باستخدام مستودع بيانات لاستكشاف البيانات وتحليلات البيانات والتعلم الآلي.
يمكن أن يعمل مستودع البيانات كمصدر بيانات لمستودع بيانات. عند استخدام هذا الأسلوب، يدمج مستودع البيانات البيانات الأولية ثم يحولها إلى تنسيق منظم قابل للاستعلام. عادة ما يستخدم هذا التحويل مسار استخراج وتحميل وتحويل (ELT) حيث يتم استيعاب البيانات وتحويلها في مكانها. قد تنتقل بيانات المصدر الارتباطية مباشرة إلى مستودع البيانات عبر عملية ETL وتتخطى مستودع البيانات.
يمكنك استخدام مخازن مستودع البيانات في سيناريوهات تدفق الأحداث أو IoT لأن مستودعات البيانات يمكن أن تستمر في كميات كبيرة من البيانات الارتباطية وغير الارتباطية دون تحويل أو تعريف مخطط. يمكن لمستودعات البيانات التعامل مع كميات كبيرة من عمليات الكتابة الصغيرة في زمن انتقال منخفض ويتم تحسينها لمعدل نقل هائل.
يقارن الجدول التالي مستودعات البيانات ومستودعات البيانات.
التحديات
كميات كبيرة من البيانات: يمكن أن تكون إدارة كميات هائلة من البيانات الأولية وغير المنظمة معقدة وتحتاج إلى موارد مكثفة، لذلك تحتاج إلى بنية أساسية وأدوات قوية.
الاختناقات المحتملة: يمكن أن تؤدي معالجة البيانات إلى حدوث تأخيرات وحالات قصور، خاصة عندما يكون لديك كميات كبيرة من البيانات وأنواع بيانات متنوعة.
مخاطر تلف البيانات: يؤدي التحقق من صحة البيانات ومراقبتها بشكل غير صحيح إلى مخاطر تلف البيانات، ما قد يعرض سلامة مستودع البيانات للخطر.
مشاكل مراقبة الجودة: تمثل جودة البيانات المناسبة تحديا بسبب تنوع مصادر البيانات وتنسيقاتها. يجب عليك تنفيذ ممارسات صارمة لإدارة البيانات.
مشكلات الأداء: يمكن أن يتدهور أداء الاستعلام مع نمو مستودع البيانات، لذلك يجب تحسين استراتيجيات التخزين والمعالجة.
خيارات التكنولوجيا
عند إنشاء حل مستودع بيانات شامل على Azure، ضع في اعتبارك التقنيات التالية:
يجمع Azure Data Lake Storage بين Azure Blob Storage وإمكانيات مستودع البيانات، والتي توفر الوصول المتوافق مع Apache Hadoop وقدرات مساحة الاسم الهرمية والأمان المحسن لتحليلات البيانات الضخمة الفعالة.
Azure Databricks هو نظام أساسي موحد يمكنك استخدامه لمعالجة البيانات وتخزينها وتحليلها والاستفادة منها. وهو يدعم عمليات ETL ولوحات المعلومات والأمان واستكشاف البيانات والتعلم الآلي الذكاء الاصطناعي التوليدية.
Azure Synapse Analytics هي خدمة موحدة يمكنك استخدامها لاستيعاب البيانات واستكشافها وإعدادها وإدارتها وتقديمها للذكاء التجاري واحتياجات التعلم الآلي الفورية. يتكامل بعمق مع مستودعات بيانات Azure بحيث يمكنك الاستعلام عن مجموعات البيانات الكبيرة وتحليلها بكفاءة.
Azure Data Factory هي خدمة تكامل بيانات مستندة إلى السحابة يمكنك استخدامها لإنشاء مهام سير عمل تعتمد على البيانات لتنسيق حركة البيانات وتحويلها وأتمتتها.
Microsoft Fabric هو نظام أساسي شامل للبيانات يوحد هندسة البيانات وعلوم البيانات وتخزين البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية في حل واحد.
المساهمون
تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.
الكاتب الرئيسي:
- Avijit Prasad | مستشار السحابة
لمشاهدة ملفات تعريف LinkedIn غير العامة، سجل الدخول إلى LinkedIn.
الخطوات التالية
- ما هو OneLake؟
- مقدمة إلى Data Lake Storage
- وثائق Azure Data Lake Analytics
- التدريب: مقدمة إلى Data Lake Storage
- تكامل Hadoop وAzure Data Lake Storage
- الاتصال ب Data Lake Storage وBlob Storage
- تحميل البيانات في Data Lake Storage باستخدام Azure Data Factory