اختيار مخزن بيانات تحليلي في Azure

في تصميم البيانات الضخمة، غالباً ما تكون هناك حاجة إلى مخزن بيانات تحليلي يخدم البيانات المعالجة بتنسيق منظم يمكن الاستعلام فيه باستخدام أدوات تحليلية. يُشار إلى مخازن البيانات التحليلية التي تدعم الاستعلام عن بيانات المسار الساخن والمسار البارد بشكل جماعي باسم طبقة الخدمة، أو تخزين خدمة البيانات.

تتعامل طبقة التقديم مع البيانات المعالجة من كل من المسار الساخن والمسار البارد. في تصميم lambda، يتم تقسيم طبقة التقديم إلى طبقة خدمة السرعة، والتي تخزن البيانات التي تمت معالجتها بشكل متزايد، وطبقة خدمة دفعية، والتي تحتوي على الإخراج الذي تمت معالجته بالدفعة. تتطلب طبقة التقديم دعماً قوياً للقراءات العشوائية ذات زمن انتقال منخفض. يجب أن يدعم تخزين البيانات لطبقة السرعة أيضاً عمليات الكتابة العشوائية، لأن تحميل البيانات في دفعة في هذا المتجر قد يؤدي إلى تأخيرات غير مرغوب فيها. من ناحية أخرى، لا يحتاج تخزين البيانات لطبقة الدفعة إلى دعم عمليات الكتابة العشوائية، ولكن عمليات كتابة الدفعة بدلاً من ذلك.

لا يوجد أفضل خيار واحد لإدارة البيانات لجميع مهام تخزين البيانات. تم تحسين حلول إدارة البيانات المختلفة لمهام مختلفة. تحتوي معظم تطبيقات السحابة وعمليات البيانات الضخمة في العالم الحقيقي على مجموعة متنوعة من متطلبات تخزين البيانات وغالباً ما تستخدم مجموعة من حلول تخزين البيانات.

ما هي خياراتك عند اختيار مخزن بيانات تحليلي؟

هناك العديد من الخيارات للبيانات التي تخدم التخزين في Azure، اعتماداً على احتياجاتك:

توفر هذه الخيارات نماذج قاعدة بيانات مختلفة تم تحسينها للأنواع المختلفة من المهام:

  • تحتوي قواعد بيانات المفتاح/القيمة على عنصر تسلسلي واحد لكل قيمة مفتاح. إنها جيدة لتخزين كميات كبيرة من البيانات حيث تريد الحصول على عنصر واحد لقيمة مفتاح معين وليس عليك الاستعلام استناداً إلى خصائص أخرى للعنصر.
  • قواعد بيانات المستندات هي قواعد بيانات المفتاح/القيمة تكون فيها القيم مستندات. "مستند" في هذا السياق هو مجموعة من الحقول والقيم المسماة. عادة ما تخزن قاعدة البيانات البيانات بتنسيق مثل XML أو YAML أو JSON أو JSON ثنائي (BSON)، ولكن قد تستخدم نصا عاديا. يمكن لقواعد بيانات المستندات الاستعلام عن الحقول غير الرئيسية وتحديد الفهارس الثانوية لجعل الاستعلام أكثر كفاءة. وهذا يجعل قاعدة بيانات المستند أكثر ملاءمة للتطبيقات التي تحتاج إلى استرداد البيانات استناداً إلى معايير أكثر تعقيداً من قيمة مفتاح المستند. على سبيل المثال، يمكنك الاستعلام عن حقول مثل معرف المنتج أو معرف العميل أو اسم العميل.
  • قواعد بيانات مخزن الأعمدة هي مخازن بيانات المفتاح/القيمة التي تخزن كل عمود بشكل منفصل على القرص. قاعدة بيانات مخزن الأعمدة العريضة هي نوع من قاعدة بيانات مخزن الأعمدة التي تخزن عائلات الأعمدة، وليس فقط أعمدة مفردة. على سبيل المثال، قد تحتوي قاعدة بيانات التعداد على مجموعة أعمدة لاسم الشخص (الأول والوسطى والأخير) وعائلة لعنوان الشخص وعائلة لمعلومات ملف تعريف الشخص (تاريخ الميلاد والجنس). يمكن لقاعدة البيانات تخزين كل مجموعة أعمدة في قسم منفصل، مع الاحتفاظ بجميع البيانات لشخص واحد مرتبط بنفس المفتاح. يمكن للتطبيق قراءة عائلة أعمدة واحدة دون قراءة جميع البيانات للكيان.
  • تقوم قواعد بيانات Graph بتخزين المعلومات كمجموعة من العناصر والعلاقات. يمكن لقاعدة بيانات الرسم البياني إجراء الاستعلامات التي تعبر شبكة العناصر والعلاقات بينها بكفاءة. على سبيل المثال، قد تكون العناصر موظفين في قاعدة بيانات الموارد البشرية، وقد ترغب في تسهيل الاستعلامات مثل "العثور على جميع الموظفين الذين يعملون بشكل مباشر أو غير مباشر مع سكوت."
  • بيانات تتبع الاستخدام وقواعد بيانات السلسلة الزمنية هي مجموعة إلحاقية فقط من الكائنات. تقوم قواعد بيانات تتبع الاستخدام بفهرسة البيانات بكفاءة في مجموعة متنوعة من مخازن الأعمدة والهياكل في الذاكرة، مما يجعلها الخيار الأمثل لتخزين وتحليل كميات هائلة من بيانات تتبع الاستخدام وبيانات السلاسل الزمنية.

معايير تحديد المفتاح

لتضييق الخيارات، ابدأ بالإجابة على هذه الأسئلة:

  • هل تحتاج إلى خدمة التخزين التي يمكن أن تكون بمثابة مسار ساخن لبياناتك؟ إذا كانت الإجابة بنعم، فقم بتضييق خياراتك على تلك التي تم تحسينها لطبقة خدمة السرعة.

  • هل تحتاج إلى دعم معالجة متوازية على نطاق واسع (MPP)، حيث يتم توزيع الاستعلامات تلقائياً عبر العديد من العمليات أو العقد؟ إذا كانت الإجابة بنعم، فحدد خيارا يدعم توسيع نطاق الاستعلام.

  • هل تفضل استخدام مخزن بيانات ارتباطي؟ إذا كان الأمر كذلك، فضيق خياراتك على تلك التي لها نموذج قاعدة بيانات ارتباطية. ومع ذلك، لاحظ أن بعض المتاجر غير الارتباطية تدعم بناء جملة SQL للاستعلام، ويمكن استخدام أدوات مثل PolyBase للاستعلام عن مخازن البيانات غير الارتباطية.

  • هل تجمع بيانات السلاسل الزمنية؟ هل تستخدم بيانات الإلحاق فقط؟

مصفوفة الإمكانات

تلخص الجداول التالية الاختلافات الرئيسية في القدرات.

الإمكانات العامة

الإمكانية قاعدة بيانات SQL مجموعة Azure Synapse SQL وعاء Azure Synapse Spark Azure Data Explorer ‏(Kusto) HBase/Phoenix على HDInsight Hive LLAP على HDInsight Azure Analysis Services Azure Cosmos DB
خدمة مدارة ‏‏نعم‬ نعم نعم ‏‏نعم‬ نعم 1 نعم 1 ‏‏نعم‬ ‏‏نعم‬
نموذج قاعدة البيانات الأساسية علائقي (تنسيق مخزن الأعمدة عند استخدام فهارس تخزين الأعمدة) الجداول الارتباطية مع تخزين الأعمدة مخزن أعمدة عريض ارتباطي (مخزن الأعمدة) وبيانات تتبع الاستخدام ومخزن السلاسل الزمنية مخزن أعمدة عريض Hive/في الذاكرة نماذج دلالية جدولية مخزن المستندات، الرسم البياني، مخزن قيمة المفتاح، مخزن أعمدة عريض
دعم لغة SQL ‏‏نعم‬ نعم نعم ‏‏نعم‬ نعم (باستخدام برنامج تشغيل جهاز Phoenix JDBC) ‏‏نعم‬ لا ‏‏نعم‬
محسن لطبقة تقديم السرعة نعم 2 نعم 3 ‏‏نعم‬ نعم نعم نعم لا ‏‏نعم‬

[1] مع التكوين اليدوي والتحجيم.

[2] استخدام جداول محسنة للذاكرة وتجزئة أو فهارس غير متفاوتة المسافات.

[3] مدعوم كإخراج Azure Stream Analytics.

قدرات قابلية التوسع

الإمكانية قاعدة بيانات SQL مجموعة Azure Synapse SQL وعاء Azure Synapse Spark Azure Data Explorer ‏(Kusto) HBase/Phoenix على HDInsight Hive LLAP على HDInsight Azure Analysis Services Azure Cosmos DB
خوادم إقليمية زائدة عن الحاجة لقابلية وصول عالية ‏‏نعم‬ لا لا نعم نعم لا نعم ‏‏نعم‬
يدعم توسيع نطاق الاستعلام لا نعم نعم نعم نعم نعم نعم ‏‏نعم‬
قابلية التوسع الديناميكي (التوسيع) ‏‏نعم‬ نعم نعم نعم لا لا نعم ‏‏نعم‬
يدعم التخزين المؤقت للبيانات في الذاكرة ‏‏نعم‬ نعم نعم نعم لا نعم نعم لا

القدرات الأمنية

الإمكانية قاعدة بيانات SQL Azure Synapse Azure Data Explorer ‏(Kusto) HBase/Phoenix على HDInsight Hive LLAP على HDInsight Azure Analysis Services Azure Cosmos DB
المصادقة معرف SQL / Microsoft Entra معرف SQL / Microsoft Entra Microsoft Entra ID local / Microsoft Entra ID 1 local / Microsoft Entra ID 1 Microsoft Entra ID مستخدمو قاعدة البيانات / معرف Microsoft Entra عبر التحكم في الوصول (إدارة الهوية والوصول (IAM))
تشفير البيانات الثابتة نعم 2 نعم 2 ‏‏نعم‬ نعم 1 نعم 1 ‏‏نعم‬ ‏‏نعم‬
الأمان على مستوى الصف ‏‏نعم‬ نعم 3 ‏‏نعم‬ نعم 1 نعم 1 ‏‏نعم‬ لا
يدعم جدران الحماية ‏‏نعم‬ نعم ‏‏نعم‬ نعم 4 نعم 4 ‏‏نعم‬ ‏‏نعم‬
إخفاء البيانات الديناميكي ‏‏نعم‬ نعم ‏‏نعم‬ نعم 1 ‏‏نعم‬ لا لا

[1] يتطلب استخدام مجموعة HDInsight المرتبطة بالمجال.

[2] يتطلب استخدام تشفير البيانات الشفاف لتشفير البيانات وفك تشفيرها في حالة الثبات.

[3] دالات تقييم التصفية فقط. راجع أمان مستوى الصف

[4] عند استخدامها داخل شبكة Azure الظاهرية. لمزيد من المعلومات، راجع توسيع Azure HDInsight باستخدام شبكة Azure الظاهرية.

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكاتب الرئيسي:

الخطوات التالية