Share via


Confiabilidad en Azure HDInsight en Azure Kubernetes Service

En este artículo se describe la compatibilidad con la confiabilidad en Azure HDInsight en Azure Kubernetes Service (AKS) y se tratan las recomendaciones de confiabilidad específicas y la recuperación ante desastres y continuidad empresarial. Para obtener información general más detallada sobre los principios de confiabilidad de Azure, consulte Confiabilidad de Azure.

Recomendaciones sobre la confiabilidad

Esta sección contiene recomendaciones para lograr la resistencia y la disponibilidad. Cada recomendación se divide en una de las dos categorías:

  • Los elementos de mantenimiento abarcan áreas como los elementos de configuración y el funcionamiento correcto de los principales componentes que se encargan de su carga de trabajo de Azure, como la configuración de recursos de Azure, dependencias de otros servicios, etc.

  • Los elementos de riesgo abarcan áreas como los requisitos de disponibilidad y recuperación, pruebas, supervisión, implementación y otros elementos que, si se dejan sin resolver, aumentarán la probabilidad de que surjan problemas en el entorno.

Matriz de prioridad de recomendaciones de fiabilidad

Cada recomendación se marca según la siguiente matriz de prioridad:

Imagen Prioridad Descripción
Alto Se necesita corrección inmediata.
Media Corregir en un plazo de entre 3 y 6 meses.
Bajo Necesita revisión.

Resumen de recomendaciones de fiabilidad

Category Priority Recomendación
Disponibilidad Recomendaciones de tamaño de máquina virtual predeterminadas y mínimas
Escalado automático de clústeres de Azure HDInsight en AKS
Supervisión Cómo integrarse con Log Analytics
Supervisión con la Gestion Prometheus y Grafana de Azure
Seguridad Uso de NSG para restringir el tráfico a HDInsight en AKS

Compatibilidad de zonas de disponibilidad

Las zonas de disponibilidad de Azure son al menos tres grupos de centros de datos físicamente independientes dentro de cada región de Azure. Los centros de datos de cada zona están equipados con infraestructura de alimentación, refrigeración y red independientes. En el caso de un error en la zona local, las zonas de disponibilidad están diseñadas de manera que, si se ve afectada una zona, los servicios, la capacidad y la alta disponibilidad regionales serán proporcionadas por las dos zonas restantes.

Estos errores pueden abarcar desde errores de software y hardware hasta eventos como terremotos, inundaciones e incendios. La tolerancia a los errores se logra con la redundancia y el aislamiento lógico de los servicios de Azure. Para más información sobre las zonas de disponibilidad en Azure, consulte Regiones y zonas de disponibilidad.

Los servicios habilitados para zonas de disponibilidad de Azure están diseñados para proporcionar el nivel adecuado de confiabilidad y flexibilidad. Se pueden configurar de dos maneras. Pueden tener redundancia de zona, con una replicación automática entre zonas o ser zonales, con instancias ancladas a una zona específica. También puede combinar ambos enfoques. Para más información sobre la arquitectura zonal frente a la arquitectura con redundancia de zona, consulte Recomendaciones para el uso de zonas de disponibilidad y regiones.

Actualmente, Azure HDInsight en AKS no admite la zona de disponibilidad en sus ofertas de servicio.

Recuperación ante desastres y continuidad empresarial

La recuperación ante desastres (DR) consiste en recuperarse de eventos de alto impacto, como desastres naturales o implementaciones con errores, lo que produce tiempo de inactividad y pérdida de datos. Independientemente de la causa, el mejor remedio para un desastre es un plan de recuperación ante desastres bien definido y probado y un diseño de aplicaciones que apoye activamente la recuperación ante desastres. Antes de empezar a pensar en la creación del plan de recuperación ante desastres, vea Recomendaciones para diseñar una estrategia de recuperación ante desastres.

En lo que respecta a la recuperación ante desastres, Microsoft usa el modelo de responsabilidad compartida. En un modelo de responsabilidad compartida, Microsoft garantiza que la infraestructura de línea base y los servicios de plataforma estén disponibles. Al mismo tiempo, muchos servicios de Azure no replican automáticamente datos ni se revierten desde una región con errores para realizar la replicación cruzada en otra región habilitada. Para esos servicios, usted es el responsable de configurar un plan de recuperación ante desastres que funcione para la carga de trabajo. La mayoría de los servicios que se ejecutan en ofertas de plataforma como servicio (PaaS) de Azure proporcionan características e instrucciones para admitir la recuperación ante desastres y puede usar características específicas del servicio para admitir la recuperación rápida para ayudar a desarrollar el plan de recuperación ante desastres.

Actualmente, el servicio y las bases de datos de Azure HDInsight en AKS CP (Plano de control) se implementan en regiones de Azure. Entre estas regiones, las instancias de Azure HDInsight en AKS y las instancias de base de datos están aisladas. Cuando se produce una interrupción en el nivel de región, una región está inactiva. Todos los recursos de esta región, incluido el RP (Proveedor de recursos) de Azure HDInsight en AKS CP, la base de datos de Azure HDInsight en AKS CP y todos los clústeres de clientes en esta región. En este caso, solo podemos esperar a que finalice la interrupción regional. Cuando se recupera de la interrupción, Azure HDInsight en el servicio AKS vuelve a funcionar y también vuelven todos los clústeres de clientes. Es posible que haya algunos problemas debido a la inconsistencia de los datos después de la interrupción y que se necesite una corrección manual.

Recuperación ante desastres entre regiones

Azure HDInsight en AKS actualmente no admite la conmutación por error entre regiones. La mejora de la continuidad empresarial mediante la recuperación ante desastres de alta disponibilidad entre regiones requiere diseños arquitectónicos de mayor complejidad y un costo más alto. Los clientes pueden optar por diseñar su propia solución para realizar copias de seguridad de datos clave y estado del trabajo en diferentes regiones.

Detección, notificación y administración de interrupciones

  • Use las herramientas de supervisión de Azure en HDInsight en AKS para detectar comportamientos anómalos en el clúster y establecer las notificaciones de alerta correspondientes. Puede habilitar Log Analytics de varias maneras y usar el servicio Prometheus administrado con paneles de Azure Grafana para la supervisión. Para obtener más información, vea Integración de Azure Monitor.

  • Suscríbase a las alertas de estado de Azure para recibir notificaciones sobre problemas de servicio, mantenimiento planeado, avisos de estado y seguridad para una suscripción, un servicio o una región. Las notificaciones de estado que incluyen la causa del problema y la hora de llegada estimada resuelta le ayudan a ejecutar mejor la conmutación por error y la conmutación por recuperación. Para más información, consulte Administración del estado del servicio y Documentación de Azure Service Health.

Recuperación ante desastres de una sola región

Actualmente, Azure HDInsight en AKS solo tiene una oferta de servicio estándar y los clústeres se crean en una única región geográfica. Los clientes son responsables de la recuperación ante desastres.

Capacidad y resistencia proactiva de la recuperación ante desastres

Azure HDInsight en AKS y sus clientes operan con el modelo de responsabilidad compartida, lo que significa que el cliente debe abordar la recuperación ante desastres para el servicio que implementa y controla. Para asegurarse de que la recuperación sea proactiva, los clientes siempre tienen que implementar previamente regiones secundarias, ya que no hay ninguna garantía de que haya capacidad en el momento del impacto para aquellos que no han asignado previamente.

A diferencia de la versión original de HDInsight, las máquinas virtuales que se usan en HDInsight en clústeres de AKS requieren la misma cuota que las máquinas virtuales de Azure. Para más información, consulte Planeamiento de capacidad.

Para más información sobre los elementos que se describen en este artículo, consulte: