الموثوقية في Azure HDInsight على خدمة Azure Kubernetes

توضح هذه المقالة دعم الموثوقية في Azure HDInsight على خدمة Azure Kubernetes (AKS)، وتغطي كل من توصيات الموثوقية المحددة والتعافي من الكوارث واستمرارية الأعمال. للحصول على نظرة عامة أكثر تفصيلا حول مبادئ الموثوقية في Azure، راجع موثوقية Azure.

توصيات الموثوقية

يحتوي هذا القسم على توصيات لتحقيق المرونة والتوافر. وتنقسم كل توصية إلى إحدى فئتين:

  • تغطي عناصر الحماية مناطق مثل عناصر التكوين والوظيفة المناسبة للمكونات الرئيسية التي تشكل حمل عمل Azure، مثل إعدادات تكوين موارد Azure والتبعيات على الخدمات الأخرى وما إلى ذلك.

  • تغطي عناصر المخاطر مناطق مثل متطلبات التوفر والاسترداد والاختبار والمراقبة والنشر والعناصر الأخرى التي تزيد من فرص حدوث مشاكل في البيئة إذا تركت دون حل.

مصفوفة أولوية توصيات الموثوقية

توضع علامة على كل توصية وفقا لمصفوفة الأولوية التالية:

الصورة أولوية ‏‏الوصف
درجة عالية الإصلاح الفوري مطلوب.
متوسط إصلاح في غضون 3-6 أشهر.
منخفض تحتاج إلى مراجعة.

ملخص توصيات الموثوقية

الفئة أولوية التوصية
التوافر توصيات حجم الجهاز الظاهري الافتراضي والحد الأدنى
التحجيم التلقائي ل HDInsight على مجموعات AKS
مراقبة‬ كيفية التكامل مع Log Analytics
المراقبة باستخدام Azure Managed Prometheus وGrafana
الأمان استخدام NSG لتقييد حركة المرور إلى HDInsight على AKS

دعم منطقة القابلية للوصول

مناطق توفر Azure هي ثلاث مجموعات منفصلة فعليا على الأقل من مراكز البيانات داخل كل منطقة Azure. مراكز البيانات داخل كل منطقة مجهزة ببنية أساسية مستقلة للطاقة والتبريد والشبكات. في حالة فشل المنطقة المحلية، يتم تصميم مناطق التوفر بحيث إذا تأثرت المنطقة الواحدة، فإن الخدمات الإقليمية والسعة والتوافر العالي تدعمها المنطقتين المتبقيتين.

يمكن أن تتراوح حالات الفشل من فشل البرامج والأجهزة إلى الأحداث مثل الزلازل والفيضانات والحرائق. يتم تحقيق التسامح مع الفشل مع التكرار والعزلة المنطقية لخدمات Azure. لمزيد من المعلومات التفصيلية حول مناطق التوفر في Azure، راجع المناطق ومناطق التوفر.

تم تصميم الخدمات الممكنة لمناطق توفر Azure لتوفير المستوى الصحيح من الموثوقية والمرونة. يمكن تكوينها بطريقتين. يمكن أن تكون إما زائدة عن الحاجة للمنطقة، مع النسخ المتماثل التلقائي عبر المناطق، أو منطقة، مع تثبيت المثيلات في منطقة معينة. يمكنك أيضا الجمع بين هذه الأساليب. لمزيد من المعلومات حول البنية المناطقية مقابل البنية الزائدة عن الحاجة للمنطقة، راجع التوصيات لاستخدام مناطق التوفر والمناطق.

حاليا، لا يدعم Azure HDInsight على AKS منطقة التوفر في عروض الخدمة الخاصة به.

الإصلاح بعد كارثة واستمرارية الأعمال

يتعلق التعافي من الكوارث (DR) بالتعافي من الأحداث عالية التأثير، مثل الكوارث الطبيعية أو عمليات النشر الفاشلة التي تؤدي إلى وقت تعطل وفقدان البيانات. بغض النظر عن السبب، فإن أفضل علاج للكارثة هو خطة الإصلاح بعد الكارثة محددة جيدا ومختبرة وتصميم تطبيق يدعم الإصلاح بعد الكارثة بنشاط. قبل البدء في التفكير في إنشاء خطة التعافي من الكوارث، راجع التوصيات لتصميم استراتيجية التعافي من الكوارث.

عندما يتعلق الأمر بالتعافي من الكوارث، تستخدم Microsoft نموذج المسؤولية المشتركة. في نموذج المسؤولية المشتركة، تضمن Microsoft توفر البنية الأساسية الأساسية وخدمات النظام الأساسي. في الوقت نفسه، لا تقوم العديد من خدمات Azure تلقائيا بنسخ البيانات نسخا متماثلا أو الرجوع من منطقة فاشلة للنسخ المتماثل إلى منطقة أخرى ممكنة. بالنسبة إلى هذه الخدمات، أنت مسؤول عن إعداد خطة التعافي من الكوارث التي تعمل مع حمل العمل الخاص بك. توفر معظم الخدمات التي تعمل على عروض النظام الأساسي كخدمة (PaaS) في Azure ميزات وإرشادات لدعم الإصلاح بعد الكارثة ويمكنك استخدام ميزات خاصة بالخدمة لدعم الاسترداد السريع للمساعدة في تطوير خطة الإصلاح بعد الكارثة.

حاليا، يتم نشر Azure HDInsight على خدمة وقواعد بيانات AKS CP (وحدة التحكم) عبر مناطق Azure. من بين هذه المناطق، يتم عزل Azure HDInsight على مثيلات AKS ومثيلات قاعدة البيانات. عند حدوث انقطاع على مستوى المنطقة، تكون منطقة واحدة معطلة. جميع الموارد في هذه المنطقة، بما في ذلك RP (موفر الموارد) من Azure HDInsight على AKS CP، وقاعدة بيانات Azure HDInsight على AKS CP وجميع مجموعات العملاء في هذه المنطقة. في هذه الحالة، يمكننا الانتظار فقط حتى ينتهي الانقطاع الإقليمي. عند استرداد الانقطاع، تعود خدمة Azure HDInsight على AKS مرة أخرى وجميع مجموعات العملاء مرة أخرى أيضا. من الممكن أن تكون هناك بعض المشاكل بسبب عدم تناسق البيانات بعد الانقطاع وتحتاج إلى إصلاح يدوي.

التعافي من الكوارث متعددة المناطق

لا يدعم Azure HDInsight على AKS حاليا تجاوز الفشل عبر المنطقة. يتطلب تحسين استمرارية الأعمال باستخدام التعافي من الكوارث ذات قابلية الوصول العالية عبر المنطقة تصميمات معمارية ذات تعقيد أعلى وتكلفة أعلى. قد يختار العملاء تصميم الحل الخاص بهم لعمل نسخة احتياطية من البيانات الرئيسية وحالة الوظيفة عبر مناطق مختلفة.

الكشف عن الانقطاع والإعلام والإدارة

  • استخدم أدوات مراقبة Azure على HDInsight على AKS للكشف عن السلوك غير الطبيعي في نظام المجموعة وتعيين إعلامات التنبيه المقابلة. يمكنك تمكين Log Analytics بطرق مختلفة واستخدام خدمة Prometheus المدارة مع لوحات معلومات Azure Grafana للمراقبة. لمزيد من المعلومات، راجع تكامل Azure Monitor.

  • اشترك في تنبيهات Azure الصحية ليتم إعلامك بمشكلات الخدمة أو الصيانة المخطط لها أو النصائح الصحية والأمنية للاشتراك أو الخدمة أو المنطقة. تساعدك الإشعارات الصحية التي تتضمن سبب المشكلة وETA الحازمة على تنفيذ عمليات تجاوز الفشل وإرجاع الموارد إلى الأساس بشكل أفضل. لمزيد من المعلومات، راجع إدارة صحة الخدمة ووثائق Azure Service Health.

التعافي من الكوارث في منطقة واحدة

حاليا، يحتوي Azure HDInsight على AKS على عرض خدمة قياسي واحد فقط، ويتم إنشاء مجموعات في منطقة جغرافية أحادية. العملاء مسؤولون عن استرداد الحفاض.

القدرة والمرونة الاستباقية للتعافي من الكوارث

يعمل Azure HDInsight على AKS وعملائه ضمن نموذج المسؤولية المشتركة، ما يعني أنه يجب على العميل معالجة DR للخدمة التي ينشرها ويتحكم فيها. لضمان أن يكون الاسترداد استباقيا، يجب على العملاء دائما النشر المسبق للثانويات لأنه لا يوجد ضمان للقدرة في وقت التأثير لأولئك الذين لم يتم تخصيصهم مسبقا.

على عكس الإصدار الأصلي من HDInsight، تتطلب الأجهزة الظاهرية المستخدمة في HDInsight على مجموعات AKS نفس الحصة النسبية مثل أجهزة Azure الظاهرية. لمزيد من المعلومات، راجع تخطيط السعة.

لمعرفة المزيد عن العناصر التي تم تناولها في هذه المقالة، راجع: