تجاوز الفشل لاستمرارية الأعمال والتعافي من الكوارث

لزيادة وقت التشغيل إلى الحد الأقصى، خطط مسبقًا للحفاظ على استمرارية الأعمال والاستعداد للإصلاح بعد كارثة مع Azure Machine Learning.

تسعى Microsoft جاهدة لضمان إتاحة خدمات Azure دائمًا. ومع ذلك، قد يحدث انقطاع الخدمة غير المخطط له. نوصي بوضع خطة للإصلاح بعد كارثة للتعامل مع انقطاع الخدمة الإقليمي. في هذه المقالة، ستتعرف على كيفية:

  • التخطيط لنشر متعدد المناطق للتعلم الآلي من Azure Microsoft والموارد المقترنة به.
  • زيادة فرص استرداد السجلات ودفاتر الملاحظات وصور docker وبيانات التعريف الأخرى.
  • تصميم لقابلية وصول عالية للحل الخاص بك.
  • بدء تجاوز الفشل إلى منطقة أخرى.

هام

لا يوفر التعلم الآلي من Microsoft Azure نفسه تجاوز الفشل التلقائي أو التعافي من الكوارث. لا يتوفر النسخ الاحتياطي واستعادة بيانات تعريف مساحة العمل مثل محفوظات التشغيل.

في حالة حذف مساحة العمل أو المكونات المقابلة عن طريق الخطأ، توفر لك هذه المقالة أيضا خيارات استرداد مدعومة حاليا.

فهم خدمات Azure للتعلم الآلي من Microsoft Azure

يعتمد التعلم الآلي من Microsoft Azure على خدمات Azure متعددة. تتوفر بعض هذه الخدمات في اشتراكك. أنت مسؤول عن التكوين عالي التوفر لهذه الخدمات. تُنشأ خدمات أخرى في اشتراك Microsoft وتديرها Microsoft.

تشمل خدمات Azure:

  • البنية الأساسية للتعلم الآلي من Azure: بيئة تديرها Microsoft لمساحة عمل التعلم الآلي من Microsoft Azure.

  • الموارد المقترنة: الموارد المتوفرة في اشتراكك أثناء إنشاء مساحة عمل التعلم الآلي من Azure. تتضمن هذه الموارد Azure Storage وAzure Key Vault وAzure Container Registry وApplication Insights.

    • يحتوي التخزين الافتراضي على بيانات مثل النموذج وبيانات سجل التدريب ومراجع لأصول البيانات.
    • يحتوي Key Vault على بيانات اعتماد لتخزين Azure وسجل الحاوية ومخازن البيانات.
    • يحتوي Container Registry على صورة Docker لبيئات التدريب والاستدلال.
    • Insights التطبيق لمراقبة التعلم الآلي من Azure.
  • حساب الموارد: الموارد التي تقوم بإنشائها بعد نشر مساحة العمل. على سبيل المثال، يمكنك إنشاء مثيل حساب أو نظام مجموعة حساب لتدريب نموذج التعلم الآلي.

    • مثيل الحساب والمجموعة الحسابية: بيئات تطوير النموذج التي تديرها Microsoft.
    • الموارد الأخرى: موارد حوسبة Microsoft التي يمكنك إرفاقها بـ Azure التعلم الآلي، مثل Azure Kubernetes Service (AKS) وAzure Databricks ومثيلات حاوية Azure وAzure HDInsight. أنت مسؤول عن تكوين إعدادات قابلية وصول عالية لهذه الموارد.
  • مخازن البيانات الأخرى: يمكن ل Azure التعلم الآلي تحميل مخازن بيانات أخرى مثل Azure Storage وAzure Data Lake Storage لبيانات التدريب. يتم توفير مخازن البيانات هذه ضمن اشتراكك. أنت مسؤول عن تكوين إعدادات التوفر العالي الخاصة بهم. للاطلاع على خيارات مخزن البيانات الأخرى، راجع إنشاء مخازن البيانات.

يعرض الجدول التالي خدمات Azure التي تديرها Microsoft والتي تديرها أنت. كما يشير إلى الخدمات المتوفرة بشكل كبير بشكل افتراضي.

الخدمة تخضع لإدارة قابلية وصول عالية بشكل افتراضي
البنية الأساسية التعلم الآلي من Azure Microsoft
الموارد المقترنة
تخزين Azure أنت
Key Vault أنت
Container Registry أنت
Application Insights أنت غير متوفرة
حساب الموارد
مثيل الحساب Microsoft
نظام مجموعة الحساب Microsoft
موارد الحوسبة الأخرى مثل AKS،
Azure Databricks، مثيلات الحاوية، HDInsight
أنت
مخازن البيانات الأخرى مثل Azure Storage، SQL Database,
قاعدة بيانات Azure ل PostgreSQL، قاعدة بيانات Azure ل MySQL،
Azure Databricks File System
أنت

تصف بقية هذه المقالة الإجراءات التي تحتاج إلى اتخاذها لجعل كل من هذه الخدمات متاحة بشكل كبير.

التخطيط للتوزيع متعدد المناطق

يعتمد التوزيع متعدد المناطق على إنشاء التعلم الآلي Azure والموارد الأخرى (البنية الأساسية) في منطقتين من مناطق Azure. إذا حدث انقطاع إقليمي، يمكنك التبديل إلى المنطقة الأخرى. عند التخطيط حول مكان نشر الموارد، ضع في اعتبارك:

  • التوفر الإقليمي: إذا أمكن، استخدم منطقة في نفس المنطقة الجغرافية، وليس بالضرورة المنطقة الأقرب. للتحقق من التوفر الإقليمي لـ Azure التعلم الآلي، راجع منتجات Azure حسب المنطقة.

  • المناطق المقترنة بـ Azure: تقوم المناطق المقترنة بتنسيق تحديثات النظام الأساسي وتحديد أولويات جهود الاسترداد عند الحاجة. ومع ذلك، لا تدعم جميع المناطق المناطق المقترنة. لمزيد من المعلومات، راجع مناطق Azure المقترنة.

  • توفر الخدمة: حدد ما إذا كانت الموارد التي يستخدمها الحل الخاص بك يجب أن تكون ساخنة/ساخنة أو ساخنة / دافئة أو ساخنة/باردة.

    • Hot/hot: كلتا المنطقتين نشطتان في نفس الوقت، مع منطقة واحدة جاهزة لبدء الاستخدام على الفور.
    • Hot/warm: المنطقة الأساسية النشطة والثانوية لديها موارد هامة (على سبيل المثال، النماذج المنشورة) جاهزة للبدء. وستحتاج الموارد غير الهامة إلى توزيعها يدويا في المنطقة الثانوية.
    • Hot/cold: المنطقة الأساسية النشطة والثانوية لديها التعلم الآلي Azure والموارد الأخرى المنشورة، جنبا إلى جنب مع البيانات المطلوبة. يجب توزيع الموارد مثل النماذج أو عمليات نشر النماذج أو المسارات يدويا.

تلميح

اعتمادا على متطلبات عملك، قد تقرر التعامل مع موارد Azure التعلم الآلي المختلفة بشكل مختلف. على سبيل المثال، قد ترغب في استخدام hot/hot للنماذج المنشورة (الاستدلال)، والساخنة/الباردة للتجارب (التدريب).

يعتمد Azure التعلم الآلي على الخدمات الأخرى. يمكن تكوين بعض الخدمات للنسخ المتماثل إلى مناطق أخرى. الآخرون الذين يجب عليك إنشاؤهم يدويا في مناطق متعددة. يوفر الجدول التالي قائمة بالخدمات، المسؤولة عن النسخ المتماثل، ونظرة عامة على التكوين:

خدمة Azure النسخ المتماثل جغرافيا بواسطة التكوين
مساحة عمل التعلم الآلي أنت إنشاء مساحة عمل في المناطق المحددة.
حساب التعلم الآلي أنت إنشاء موارد الحوسبة في المناطق المحددة. بالنسبة لموارد الحوسبة التي يمكن تغيير حجمها ديناميكيا، تأكد من أن كلتا المنطقتين توفران حصة حسابية كافية لاحتياجاتك.
سجل التعلم الآلي أنت إنشاء السجل في مناطق متعددة.
Key Vault Microsoft استخدم نفس مثيل Key Vault مع مساحة عمل Azure التعلم الآلي والموارد في كلتا المنطقتين. Key Vault يفشل تلقائيا إلى منطقة ثانوية. للتعرف على مزيد من المعلومات، انظر إلى توفر Azure Key Vault وتكراره.
Container Registry Microsoft تكوين مثيل سجل الحاوية للنسخ المتماثل الجغرافي للسجلات إلى المنطقة المقترنة لـ Azure التعلم الآلي. استخدم نفس المثيل لكلا مثيلي مساحة العمل. لمزيد من المعلومات، راجع النسخ المتماثل الجغرافي في سجل حاوية Azure .
حساب التخزين أنت لا يدعم Azure التعلم الآلي تجاوز الفشل الافتراضي لحساب التخزين باستخدام التخزين المتكرر جغرافيا (GRS) أو التخزين المتكرر للمنطقة الجغرافية (GZRS) أو التخزين المتكرر جغرافيا للوصول للقراءة (RA-GRS) أو التخزين المتكرر للمنطقة الجغرافية للوصول للقراءة (RA-GZRS). إنشاء حساب تخزين منفصل للتخزين الافتراضي لكل مساحة عمل.
إنشاء حسابات تخزين منفصلة أو خدمات لتخزين البيانات الأخرى. لمزيد من المعلومات، راجع تكرار Azure Storage.
Application Insights أنت إنشاء Insights التطبيق لمساحة العمل في كلتا المنطقتين. لضبط فترة الاحتفاظ بالبيانات وتفاصيلها، راجع جمع البيانات والاحتفاظ بها وتخزينها في Insights التطبيق.

لتمكين الاسترداد السريع وإعادة التشغيل في المنطقة الثانوية، نوصي بممارسات التطوير التالية:

  • استخدم قوالب Azure Resource Manager القوالب هي "البنية الأساسية كتعليمة برمجية"، وتسمح لك بنشر الخدمات بسرعة في كلتا المنطقتين.
  • لتجنب الانجراف بين المنطقتين، قم بتحديث البنية الأساسية لبرنامج ربط العمليات التجارية للتكامل والنشر المستمرين للتوزيع في كلتا المنطقتين.
  • عند أتمتة عمليات النشر، قم بتضمين تكوين موارد الحوسبة المرفقة بمساحة العمل مثل Azure Kubernetes Service.
  • إنشاء تعيينات الأدوار للمستخدمين في كلتا المنطقتين.
  • إنشاء موارد الشبكة مثل شبكات Azure الظاهرية ونقاط النهاية الخاصة لكلا المنطقتين. تأكد من أن المستخدمين لديهم حق الوصول إلى بيئتي الشبكة. على سبيل المثال، تكوينات VPN وDNS لكل من الشبكتين الظاهريتين.

خدمات الحوسبة والبيانات

اعتمادا على احتياجاتك، قد يكون لديك المزيد من خدمات الحوسبة أو البيانات التي تستخدمها Azure التعلم الآلي. على سبيل المثال، قد تستخدم خدمات Azure Kubernetes أو قاعدة بيانات Azure SQL. استخدم المعلومات التالية لمعرفة كيفية تكوين هذه الخدمات لقابلية الوصول العالية.

حساب الموارد

خدمات البيانات

تلميح

إذا قمت بتوفير المفتاح الذي يديره العميل لنشر مساحة عمل Azure التعلم الآلي، يتم أيضا توفير Azure Cosmos DB ضمن اشتراكك. في هذه الحالة، أنت مسؤول عن تكوين إعدادات التوفر العالي الخاصة بهم. راجع قابلية وصول عالية مع قاعدة بيانات Azure Cosmos.

التصميم لقابلية الوصول العالية

مجموعات التوافر

تدعم بعض خدمات Azure مناطق التوفر. بالنسبة للمناطق التي تدعم مناطق التوفر، إذا توقفت المنطقة عن العمل، فيجب حفظ البيانات. ومع ذلك، لا تتوفر البيانات للتحديث حتى تعود المنطقة إلى الاتصال بالإنترنت.

لمزيد من المعلومات، راجع خدمة منطقة التوفر والدعم الإقليمي.

توزيع المكونات الهامة إلى مناطق متعددة

حدد مستوى استمرارية الأعمال التي تهدف إلى تحقيقها. قد يختلف المستوى بين مكونات الحل الخاص بك. على سبيل المثال، قد تحتاج إلى تكوين ساخن/ساخن لمسارات الإنتاج أو عمليات نشر النموذج، وساخنة/باردة للتجريب.

إدارة بيانات التدريب على التخزين المعزول

من خلال إبقاء تخزين البيانات معزولا عن التخزين الافتراضي الذي تستخدمه مساحة العمل للسجلات، يمكنك:

  • قم بإرفاق مثيلات التخزين نفسها مثل مخازن البيانات بمساحات العمل الأساسية والثانوية.
  • الاستفادة من النسخ المتماثل الجغرافي لحسابات تخزين البيانات وزيادة وقت التشغيل الخاص بك إلى أقصى حد.

إدارة أصول التعلم الآلي كتعليمة برمجية

إشعار

لا يتوفر النسخ الاحتياطي واستعادة بيانات تعريف مساحة العمل مثل محفوظات التشغيل والنماذج والبيئات. سيساعدك تحديد الأصول والتكوينات كتعليمة برمجية باستخدام مواصفات YAML على إعادة إنشاء الأصول عبر مساحات العمل في حالة حدوث كارثة.

تحدد الوظائف في التعلم الآلي من Microsoft Azure من خلال مواصفات الوظيفة. تتضمن هذه المواصفات تبعيات على عناصر الإدخال التي تتم إدارتها على مستوى مثيل مساحة العمل، بما في ذلك البيئات والحوسبة. لتقديم الوظائف ونشرها في مناطق متعددة، نوصي بالممارسات الموضحة أدناه:

  • إدارة قاعدة التعليمات البرمجية محليا، مدعومة بمستودع Git.

    • تصدير دفاتر الملاحظات المهمة من Azure التعلم الآلي studio.
    • تصدير البنية الأساسية لبرنامج ربط العمليات التجارية التي تم تأليفها في الاستوديو كتعلم برمجي.
  • إدارة التكوينات كتعلم برمجي.

    • تجنب المراجع المشفرة إلى مساحة العمل. بدلا من ذلك، قم بتكوين مرجع إلى مثيل مساحة العمل باستخدام ملف تكوين واستخدم MLClient.from_config() لتهيئة مساحة العمل.
    • استخدم Dockerfile إذا كنت تستخدم صور Docker مخصصة.

بدأ تجاوز الفشل

متابعة العمل في مساحة عمل تجاوز الفشل

عندما تصبح مساحة العمل الأساسية غير متوفرة، يمكنك التبديل عبر مساحة العمل الثانوية لمتابعة التجريب والتطوير. لا يرسل Azure التعلم الآلي المهام تلقائيا إلى مساحة العمل الثانوية إذا كان هناك انقطاع. قم بتحديث تكوين التعليمات البرمجية للإشارة إلى مورد مساحة العمل الجديد. نوصي بتجنب مراجع مساحة عمل الترميز الثابت. بدلا من ذلك، استخدم ملف تكوين مساحة العمل لتقليل خطوات المستخدم اليدوية عند تغيير مساحات العمل. تأكد أيضا من تحديث أي أتمتة، مثل البنية الأساسية لبرنامج ربط العمليات التجارية للتكامل والنشر المستمر إلى مساحة العمل الجديدة.

لا يمكن ل Azure التعلم الآلي مزامنة البيانات الاصطناعية أو بيانات التعريف أو استردادها بين مثيلات مساحة العمل. اعتمادا على استراتيجية نشر التطبيق الخاص بك، قد تضطر إلى نقل البيانات الاصطناعية أو إعادة إنشاء مدخلات التجريب، مثل أصول البيانات، في مساحة عمل تجاوز الفشل من أجل متابعة إرسال المهمة. في حالة تكوين مساحة العمل الأساسية وموارد مساحة العمل الثانوية لمشاركة الموارد المقترنة مع تمكين النسخ المتماثل الجغرافي، قد تكون بعض الكائنات متاحة مباشرة لمساحة عمل تجاوز الفشل. على سبيل المثال، إذا كانت كلتا مساحات العمل تشتركان في نفس صور docker، ومخازن البيانات المكونة، وموارد Azure Key Vault. يوضح الرسم التخطيطي التالي تكوينا حيث تشترك مساحتا عمل في نفس الصور (1) ومخازن البيانات (2) Key Vault (3).

رسم تخطيطي لتجاوز الفشل بين المناطق المقترنة.

إشعار

لن تنتقل أي مهام يتم تشغيلها عند حدوث انقطاع الخدمة تلقائيا إلى مساحة العمل الثانوية. من غير المحتمل أيضا أن تستأنف المهام وتنتهي بنجاح في مساحة العمل الأساسية بمجرد حل الانقطاع. بدلا من ذلك، يجب إعادة إرسال هذه المهام، إما في مساحة العمل الثانوية أو في الأساسي (بمجرد حل الانقطاع).

نقل البيانات الاصطناعية بين مساحات العمل

اعتمادا على نهج الاسترداد الخاص بك، قد تحتاج إلى نسخ البيانات الاصطناعية بين مساحات العمل لمتابعة عملك. حاليا، قابلية نقل البيانات الاصطناعية بين مساحات العمل محدودة. نوصي بإدارة البيانات الاصطناعية كتعلم برمجي حيثما أمكن بحيث يمكن إعادة إنشائها في مثيل تجاوز الفشل.

يمكن تصدير البيانات الاصطناعية التالية واستيرادها بين مساحات العمل باستخدام ملحق Azure CLI للتعلم الآلي:

الأدوات تصدير استيراد
النماذج az ml model download --name {NAME} --version {VERSION} az ml model create
البيئات az ml environment share --name my-environment --version {VERSION} --resource-group {RESOURCE_GROUP} --workspace-name {WORKSPACE} --share-with-name {NEW_NAME_IN_REGISTRY} --share-with-version {NEW_VERSION_IN_REGISTRY} --registry-name {REGISTRY_NAME} az ml environment create
مهام التعلم الآلي من Microsoft Azure az ml job download -n {NAME} -g {RESOURCE_GROUP} -w {WORKSPACE_NAME} az ml job create -f {FILE} -g {RESOURCE_GROUP} -w {WORKSPACE_NAME}
أصول البيانات az ml data share --name {DATA_NAME} --version {VERSION} --resource-group {RESOURCE_GROUP} --workspace-name {WORKSPACE} --share-with-name {NEW_NAME_IN_REGISTRy} --share-with-version {NEW_VERSION_IN_REGISTRY} --registry-name {REGISTRY_NAME} az ml data create -f {FILE} -g {RESOURCE_GROUP} --registry-name {REGISTRY_NAME}

تلميح

  • تخزن مخرجات التشغيل في حساب التخزين الافتراضي المقترن بمساحة عمل. بينما قد يتعذر الوصول إلى مخرجات الوظيفة من واجهة مستخدم الاستوديو في حالة انقطاع الخدمة، يمكنك الوصول مباشرة إلى البيانات من خلال حساب التخزين. لمزيد من المعلومات حول العمل مع البيانات المخزنة في الكائنات الثنائية كبيرة الحجم، راجع إنشاء الكائنات الثنائية كبيرة الحجم وتنزيلها وإدراجها باستخدام Azure CLI.

خيارات الاسترداد

حذف مساحة العمل

إذا قمت بحذف مساحة العمل الخاصة بك عن طريق الخطأ، فقد تتمكن من استردادها. للحصول على خطوات الاسترداد، راجع استرداد بيانات مساحة العمل بعد الحذف العرضي مع الحذف المبدئي.

حتى إذا تعذر استرداد مساحة العمل الخاصة بك، فقد لا تزال قادرا على استرداد دفاتر الملاحظات من مورد تخزين Azure المرتبط بمساحة العمل باتباع الخطوات التالية:

  • في مدخل Microsoft Azure، انتقل إلى حساب التخزين المرتبط بمساحة عمل Azure التعلم الآلي المحذوفة.
  • في قسم Data storage على اليسار، حدد File shares.
  • توجد دفاتر الملاحظات على مشاركة الملف بالاسم الذي يحتوي على معرف مساحة العمل.

الخطوات التالية

لمعرفة عمليات توزيع البنية الأساسية القابلة للتكرار باستخدام التعلم الآلي من Microsoft Azure، استخدم قالب Azure Resource Manager.