اختيار تقنية تخزين البيانات الضخمة في Azure

تقارن هذه المقالة خيارات تخزين البيانات لحلول البيانات الضخمة - على وجه التحديد، تخزين البيانات لاستيعاب البيانات المجمعة ومعالجة الدفعات، بدلا من مخازن البيانات التحليلية أو استيعاب الدفق في الوقت الفعلي.

ما هي خياراتك عند اختيار تخزين البيانات في Azure؟

هناك العديد من الخيارات لاستيعاب البيانات في Azure، اعتمادا على احتياجاتك.

مستودع البيانات المنطقية الموحد:

تخزين الملفات:

قواعد بيانات NoSQL

قواعد البيانات التحليلية:

OneLake في Fabric

OneLake في Fabric هو مستودع بيانات موحد ومنطقي مصمم خصيصا للمؤسسة بأكملها. وهو بمثابة المركز المركزي لجميع بيانات التحليلات ويتم تضمينه مع كل مستأجر Microsoft Fabric. تم بناء OneLake في Fabric على أساس Data Lake Storage Gen2.

OneLake في Fabric:

  • يدعم أنواع الملفات المنظمة وغير المنظمة.
  • يخزن جميع البيانات الجدولية بتنسيق Delta Parquet.
  • يوفر مستودع بيانات واحدا داخل حدود المستأجر الذي يحكمه افتراضيا.
  • يدعم إنشاء مساحات عمل داخل مستأجر بحيث يمكن للمؤسسة توزيع نهج الملكية والوصول.
  • يدعم إنشاء عناصر بيانات مختلفة، مثل المستودعات والمستودعات، التي يمكنك الوصول منها إلى البيانات.

يعمل OneLake في Fabric كموقع تخزين مشترك للابتلاع والتحويل والرؤى في الوقت الحقيقي وتصورات المعلومات المهنية. فهي مركزية لخدمات Fabric المختلفة وتخزن عناصر البيانات التي تستخدمها جميع أحمال العمل في Fabric. لاختيار مخزن البيانات المناسب لأحمال عمل Fabric، راجع دليل قرار Fabric: اختر مخزن بيانات.

كائن ثنائي كبير الحجم لتخزين Azure

Azure Storage هي خدمة سحابية مُدارة من Azure توفر مساحة تخزين متوفرة بشكل كبير، وآمنة، ومتينة، وقابلة للتطوير، ومكررة. تهتم Microsoft بالصيانة وتعالج المشاكل الحرجة بالنسبة لك. Azure Storage هو حل التخزين الأكثر شيوعا الذي يوفره Azure، نظرا لعدد الخدمات والأدوات التي يمكن استخدامها معها.

هناك العديد من خدمات Azure Storage التي يمكنك استخدامها لتخزين البيانات. الخيار الأكثر مرونة لتخزين الكائنات الثنائية كبيرة الحجم من العديد من مصادر البيانات هو تخزين Blob. الكائنات الثنائية كبيرة الحجم هي في الأساس ملفات. يقومون بتخزين الصور والمستندات وملفات HTML والأقراص الثابتة الظاهرية (VHDs) والبيانات الضخمة مثل السجلات والنسخ الاحتياطية لقاعدة البيانات - إلى حد كبير أي شيء. يتم تخزين الكائنات الثنائية كبيرة الحجم في حاويات، والتي تشبه المجلدات. توفر الحاوية تجميع لمجموعة كائنات blob. يمكن أن يتضمن حساب التخزين عدداً غير محدود من الحاويات، ويمكن للحاوية تخزين عدد غير محدود من النقاط.

يعد Azure Storage خيارا جيدا للبيانات الضخمة وحلول التحليلات، نظرا لمرونتها وتوافرها العالي وتكلفتها المنخفضة. يوفر طبقات تخزين ساخنة وباردة وأرشفة لحالات الاستخدام المختلفة. لمزيد من المعلومات، راجع Azure Blob Storage: طبقات تخزين ساخنة وباردة وأرشفة.

يمكن الوصول إلى تخزين Azure Blob من Hadoop (متوفر من خلال HDInsight). يمكن ل HDInsight استخدام حاوية الكائن الثنائي الكبير في "تخزين Azure" كنظام ملف افتراضي للمجموعة. من خلال واجهة نظام الملفات الموزعة Hadoop (HDFS) التي يوفرها برنامج تشغيل WASB، يمكن أن تعمل المجموعة الكاملة من المكونات في HDInsight مباشرة على البيانات المنظمة أو غير المنظمة المخزنة ككائنات ثنائية كبيرة الحجم. يمكن أيضا الوصول إلى تخزين Azure Blob عبر Azure Synapse Analytics باستخدام ميزة PolyBase الخاصة به.

الميزات الأخرى التي تجعل Azure Storage خيارا جيدا هي:

Data Lake Storage Gen2

Data Lake Storage Gen2 هو مستودع مركزي واحد حيث يمكنك تخزين جميع بياناتك، سواء كانت منظمة أو غير منظمة. يتيح مستودع البيانات لمؤسستك تخزين مجموعة متنوعة من البيانات والوصول إليها وتحليلها بسرعةٍ وبسهولةٍ أكبر في موقعٍ واحد. باستخدام مستودع البيانات، لا تحتاج إلى مطابقة بياناتك لتلائم بنية موجودة. بدلًا من ذلك، يمكنك تخزين البيانات بتنسيقها الأولي أو الأصلي، عادةً باعتبارها ملفات أو كائنات ثنائية كبيرة (blobs).

تتلاقى قدرات الجيل الثاني من تخزين Azure Data Lake مع قدرات الجيل الأول من تخزين Azure Data Lake من خلال Azure Blob Storage. على سبيل المثال، يوفر الجيل الثاني من تخزين Azure Data Lake دلالات نظام الملفات والأمان على مستوى الملف والحجم. نظرا لأن هذه الإمكانات مبنية على تخزين Blob، فإنك تحصل أيضا على تخزين منخفض التكلفة ومتدرج، مع إمكانات قابلية وصول عالية/استرداد البيانات بعد الكوارث.

Data Lake Storage Gen2 يجعل Azure Storage الأساس لبناء مستودعات بيانات المؤسسة على Azure. تم تصميمها منذ البداية لخدمة عدد من البيتابايت من المعلومات مع الحفاظ على مئات الجيجابت من الإنتاجية، يسمح Data Lake Storage Gen2 لك بإدارة كميات هائلة من البيانات بسهولة.

Azure Cosmos DB

Azure Cosmos DB هي قاعدة بيانات متعددة النماذج موزعة عالميًّا من Microsoft. يضمن Azure Cosmos DB زمن انتقال مكون من رقم واحد بالمللي ثانية عند النسبة المئوية 99 في أي مكان في العالم، ويوفر نماذج تناسق متعددة محددة جيدا لضبط الأداء، ويضمن توفرا عاليا مع قدرات متعددة التوجيه.

واجهة برمجة التطبيقات في Azure Cosmos DB SQL غير محددة المخطط. يقوم تلقائيا بفهرسة جميع البيانات دون مطالبتك بالتعامل مع إدارة المخطط والفهرس. كما أنها نماذج متعددة النماذج ومستندات داعمة في الأساس وقيمة المفاتيح والرسم البياني ونماذج بيانات عائلة الأعمدة.

ميزات Azure Cosmos DB:

HBase على HDInsight

Apache HBase هي قاعدة بيانات NoSQL مفتوحة المصدر تعتمد على Apache Hadoop وصُممت على غرار Google BigTable. توفر HBase وصولاً عشوائياً واتساقاً قوياً لقدر كبير من البيانات غير المهيكلة وشبه المهيكلة في قاعدة بيانات غير مخططة منظمة من خلال مجموعات الأعمدة.

تُخزن البيانات في صفوف الجدول، وتُجمع البيانات داخل الصف حسب مجموعة الأعمدة. تعد HBase غير مخططة بمعنى أنه لا يلزم تحديد الأعمدة ولا نوع البيانات المخزنة فيها قبل استخدامها. تتسع التعليمة البرمجية مفتوحة المصدر خطياً لتشمل بيتا بايت من البيانات على آلاف العقد. يمكن الاعتماد على تكرار البيانات ومعالجة الدفعات والميزات الأخرى التي يتم توفيرها بواسطة التطبيقات الموزعة في نظام Hadoop البيئي.

يستخدم تنفيذ HDInsight بنية توسيع HBase لتوفير التقسيم التلقائي للجداول، والاتساق القوي للقراءات والكتابة، وتجاوز الفشل التلقائي. يُحسَّن الأداء من خلال التخزين المؤقت في الذاكرة لعمليات القراءة والتدفق بمعدل نقل عالٍ لعمليات الكتابة. في معظم الحالات، تريد إنشاء مجموعة HBase داخل شبكة ظاهرية بحيث يمكن لمجموعات وتطبيقات HDInsight الأخرى الوصول مباشرة إلى الجداول.

Azure Data Explorer ‏(Kusto)

Azure Data Explorer هي خدمة استكشاف بيانات سريعة وقابلة لتغيير الحجم بدرجة كبيرة لبيانات السجل والقياس عن بُعد. يساعدك على التعامل مع العديد من تدفقات البيانات المنبعثة من البرامج الحديثة، حتى تتمكن من جمع البيانات وتخزينها وتحليلها. يعتبر Azure Data Explorer مثاليًا لتحليل كميات كبيرة من البيانات المتنوعة من أي مصدر بيانات، مثل مواقع الويب والتطبيقات وأجهزة إنترنت الأشياء وغيرها. تُستخدم هذه البيانات في التشخيص والرصد والإبلاغ والتعلم الآلي وقدرات التحليلات الإضافية. يسهل Azure Data Explorer استيعاب هذه البيانات ويمكنك من إجراء استعلامات معقدة غير مخطط لها على البيانات في ثوان.

يمكن توسيع Azure Data Explorer خطيا لزيادة معدل نقل الاستيعاب ومعالجة الاستعلام. يمكن توزيع نظام مجموعة Azure Data Explorer إلى شبكة ظاهرية لتمكين الشبكات الخاصة.

معايير تحديد المفتاح

لتضييق الخيارات، ابدأ بالإجابة على هذه الأسئلة:

  • هل تحتاج إلى مستودع بيانات موحد مع دعم متعدد السحابات وحوكمة قوية وتكامل سلس مع الأدوات التحليلية؟ إذا كانت الإجابة بنعم، فاختر OneLake في Fabric لإدارة البيانات المبسطة والتعاون المحسن.

  • هل تحتاج إلى تخزين مدار وعالي السرعة وقائم على السحابة لأي نوع من أنواع النصوص أو البيانات الثنائية؟ إذا كانت الإجابة بنعم، فاختر أحد خيارات تخزين الملفات أو التحليلات.

  • هل تحتاج إلى تخزين الملفات المحسن لأحمال عمل التحليلات المتوازية ومعدل النقل العالي/IOPS؟ إذا كانت الإجابة بنعم، فاختر خيارا تم ضبطه لأداء حمل عمل التحليلات.

  • هل تحتاج إلى تخزين البيانات غير المنظمة أو شبه المنظمة في قاعدة بيانات بدون مخطط؟ إذا كان الأمر كذلك، فحدد أحد خيارات التحليلات أو غير الأساسية. مقارنة خيارات الفهرسة ونماذج قاعدة البيانات. اعتمادا على نوع البيانات التي تحتاج إلى تخزينها، قد تكون نماذج قاعدة البيانات الأساسية هي العامل الأكبر.

  • هل يمكنك استخدام الخدمة في منطقتك؟ تحقق من التوفر الإقليمي لكل خدمة من خدمات Azure. لمزيد من المعلومات، راجع المنتجات المتوفرة حسب المنطقة.

مصفوفة الإمكانات

تلخص الجداول التالية الاختلافات الرئيسية في القدرات.

OneLake في قدرات Fabric

الإمكانية OneLake في Fabric
مستودع بيانات موحد يوفر مستودع بيانات موحدا واحدا للمؤسسة بأكملها، ما يلغي صوامع البيانات.
دعم السحابة المتعددة يدعم التكامل والتوافق مع الأنظمة الأساسية السحابية المختلفة.
حوكمة البيانات يتضمن ميزات مثل دورة حياة البيانات وحماية البيانات والمصادقة وتكامل الكتالوج.
مركز بيانات مركزي يعمل كمركز مركزي لاكتشاف البيانات وإدارتها.
دعم المحرك التحليلي متوافق مع محركات تحليلية متعددة. يمكن هذا التوافق الأدوات والتقنيات المتنوعة من العمل على نفس البيانات.
الأمان والامتثال يضمن بقاء البيانات الحساسة آمنة ويقتصر الوصول على المستخدمين المصرح لهم فقط.
سهولة الاستخدام يوفر تصميما سهل الاستخدام يتوفر تلقائيا مع كل مستأجر Fabric ولا يتطلب أي إعداد.
قابلية التوسع قادر على التعامل مع كميات كبيرة من البيانات من مصادر مختلفة.

قدرات تخزين الملفات

الإمكانية Data Lake Storage Gen2 حاويات تخزين كائنات Azure الثنائية كبيرة الحجم
الغرض التخزين المحسن لأحمال عمل تحليلات البيانات الضخمة مخزن عناصر الأغراض العامة لمجموعة واسعة من سيناريوهات التخزين
حالات الاستخدام الدفعة والتحليلات المتدفقة وبيانات التعلم الآلي مثل ملفات السجل وبيانات IoT والنقر فوق التدفقات ومجموعات البيانات الكبيرة أي نوع من البيانات النصية أو الثنائية، مثل الواجهة الخلفية للتطبيق، وبيانات النسخ الاحتياطي، وتخزين الوسائط للدفق، وبيانات الأغراض العامة
هيكل نظام الملفات الهرمي مخزن عناصر بمساحة اسم ثابت
المصادقة استنادا إلى هويات Microsoft Entra استنادا إلى الأسرار المشتركة مفاتيح الوصول إلى الحساب ومفاتيح توقيع الوصول المشترك والتحكم في الوصول المستند إلى الدور في Azure (Azure RBAC)
بروتوكول المصادقة افتح التخويل (OAuth) 2.0. يجب أن تحتوي المكالمات على JWT (رمز ويب JSON) صالح صادر عن معرف Microsoft Entra رمز مصادقة الرسائل المستندة إلى التجزئة (HMAC). يجب أن تحتوي الاستدعاءات على تجزئة SHA-256 مرمزة بـ Base64 عبر جزء من طلب HTTP.
التصريح قوائم التحكم في الوصول (ACLs) لواجهة نظام التشغيل المحمولة (POSIX). يمكن تعيين قوائم التحكم في الوصول استنادا إلى هويات Microsoft Entra على مستوى الملفات والمجلدات. للحصول على تخويل على مستوى الحساب، استخدم مفاتيح الوصول إلى الحساب. بالنسبة إلى تخويل الحساب أو الحاوية أو الكائن الثنائي كبير الحجم، استخدم مفاتيح توقيع الوصول المشترك.
التدقيق المتوفر. متاح
التشفير في حالة السكون شفاف، جانب الخادم شفاف، جانب الخادم؛ التشفير من جانب العميل
حزم SDKs المطوّر .NET, Java, Python, Node.js .NET, Java, Python, Node.js, C++, Ruby
أداء حمل عمل التحليلات أداء محسن لأحمال عمل التحليلات المتوازية ومعدل النقل العالي وIOPS وهو ليس الأمثل لتحليلات أحمال العمل
حدود الحجم لا توجد قيود على أحجام الحسابات أو أحجام الملفات أو عدد الملفات حدود محددة موثقة هنا
Geo-redundancy التخزين المتكرر محليا (التخزين المتكرر محليا (LRS))، زائد عن الحاجة عالميا (التخزين المتكرر جغرافيا (GRS) ، الوصول للقراءة بشكل عام زائد عن الحاجة (التخزين المتكرر جغرافيا للوصول للقراءة (RA-GRS))، المنطقة المكررة (التخزين المتكرر في المنطقة (ZRS)). مكرر محليا (LRS)، مكرر عالميا (GRS)، الوصول للقراءة المكرر عالميا (RA-GRS)، المنطقة المكررة (ZRS). راجع تكرار تخزين Azure لمزيد من المعلومات

قدرات قاعدة بيانات NoSQL

الإمكانية Azure Cosmos DB HBase على HDInsight
نموذج قاعدة البيانات الأساسية مخزن المستندات، الرسم البياني، مخزن قيمة المفتاح، مخزن أعمدة عريض مخزن أعمدة عريض
الفهارس الثانوية ‏‏نعم‬ لا
دعم لغة SQL ‏‏نعم‬ نعم (باستخدام برنامج تشغيل Phoenix JDBC)
الاتساق قوية، تالفة محددة، جلسة عمل، بادئة متسقة، في نهاية المطاف قوي "Strong"
تكامل وظائف Azure الأصلي نعم لا
التوزيع العمومي التلقائي نعم لايمكن تكوين أي نسخ متماثل لمجموعة HBase عبر المناطق ذات التناسق النهائي
نموذج الأسعار وحدات الطلب القابلة للتطوير المرن (RUs) التي يتم تحصيلها في الثانية حسب الحاجة، ومساحة تخزين قابلة للتطوير بشكل مرن أسعار كل دقيقة لمجموعة HDInsight (التحجيم الأفقي للعقد)، التخزين

قدرات قاعدة البيانات التحليلية

الإمكانية Azure Data Explorer ‏(Kusto)
نموذج قاعدة البيانات الأساسية ارتباطي (مخزن الأعمدة) وبيانات تتبع الاستخدام ومخزن السلاسل الزمنية
دعم لغة SQL ‏‏نعم‬
نموذج الأسعار مثيلات نظام المجموعة القابلة للتطوير بشكل مرن
المصادقة استنادا إلى هويات Microsoft Entra
التشفير في حالة السكون مفاتيح مدعومة يديرها العميل
أداء حمل عمل التحليلات الأداء المحسن لأحمال عمل التحليلات المتوازية
حدود الحجم قابل للتطوير خطيا

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكاتب الرئيسي:

الخطوات التالية