Confiabilidad en Azure HDInsight en Azure Kubernetes Service

Artículo
06/18/2024

En este artículo se describe la compatibilidad con la confiabilidad en Azure HDInsight en Azure Kubernetes Service (AKS) y se tratan las recomendaciones de confiabilidad específicas y la recuperación ante desastres y continuidad empresarial. Para obtener información general más detallada sobre los principios de confiabilidad de Azure, consulte Confiabilidad de Azure.

Recomendaciones sobre la confiabilidad

Esta sección contiene recomendaciones para lograr la resistencia y la disponibilidad. Cada recomendación se divide en una de las dos categorías:

Los elementos de mantenimiento abarcan áreas como los elementos de configuración y el funcionamiento correcto de los principales componentes que se encargan de su carga de trabajo de Azure, como la configuración de recursos de Azure, dependencias de otros servicios, etc.
Los elementos de riesgo abarcan áreas como los requisitos de disponibilidad y recuperación, pruebas, supervisión, implementación y otros elementos que, si se dejan sin resolver, aumentarán la probabilidad de que surjan problemas en el entorno.

Matriz de prioridad de recomendaciones de fiabilidad

Cada recomendación se marca según la siguiente matriz de prioridad:

Imagen	Prioridad	Descripción
	Alto	Se necesita corrección inmediata.
	Media	Corregir en un plazo de entre 3 y 6 meses.
	Bajo	Necesita revisión.

Resumen de recomendaciones de fiabilidad

Category	Priority	Recomendación
Disponibilidad		Recomendaciones de tamaño de máquina virtual predeterminadas y mínimas
		Escalado automático de clústeres de Azure HDInsight en AKS
Supervisión		Cómo integrarse con Log Analytics
		Supervisión con la Gestion Prometheus y Grafana de Azure
Seguridad		Uso de NSG para restringir el tráfico a HDInsight en AKS

Compatibilidad de zonas de disponibilidad

Las zonas de disponibilidad de Azure son al menos tres grupos de centros de datos físicamente independientes dentro de cada región de Azure. Los centros de datos de cada zona están equipados con infraestructura de alimentación, refrigeración y red independientes. En el caso de un error en la zona local, las zonas de disponibilidad están diseñadas de manera que, si se ve afectada una zona, los servicios, la capacidad y la alta disponibilidad regionales serán proporcionadas por las dos zonas restantes.

Estos errores pueden abarcar desde errores de software y hardware hasta eventos como terremotos, inundaciones e incendios. La tolerancia a los errores se logra con la redundancia y el aislamiento lógico de los servicios de Azure. Para más información sobre las zonas de disponibilidad en Azure, consulte Regiones y zonas de disponibilidad.

Los servicios habilitados para zonas de disponibilidad de Azure están diseñados para proporcionar el nivel adecuado de confiabilidad y flexibilidad. Se pueden configurar de dos maneras. Pueden tener redundancia de zona, con una replicación automática entre zonas o ser zonales, con instancias ancladas a una zona específica. También puede combinar ambos enfoques. Para más información sobre la arquitectura zonal frente a la arquitectura con redundancia de zona, consulte Recomendaciones para el uso de zonas de disponibilidad y regiones.

Azure HDInsight en AKS admite zonas de disponibilidad aprovechando la capacidad de Azure Kubernetes Service para crear grupos de nodos con redundancia de zona. Puede seleccionar en qué zonas de disponibilidad se implementarán el grupo de clústeres y el clúster durante su creación. Una vez creado el grupo de clústeres o el clúster, no puede cambiar las zonas de disponibilidad.

Requisitos previos

Las zonas de disponibilidad solo se admiten para la versión del grupo de clústeres >= 1.2 y la versión del clúster >= 1.2.1.
Azure HDInsight en AKS solo tiene una SKU predeterminada y admite zonas de disponibilidad siempre que la región de Azure tenga compatibilidad con zonas de disponibilidad.

Las regiones siguientes no admiten zonas de disponibilidad:

América Europa Oriente Medio África Asia Pacífico

Oeste de EE. UU. Norte de Alemania
Es posible que algunas SKU de máquina virtual no admitan todas las zonas de disponibilidad de una región. Si selecciona esas SKU, HDInsight en grupos de clústeres o clústeres de AKS tampoco admite las zonas de disponibilidad correspondientes.

América	Europa	Oriente Medio	África	Asia Pacífico
Oeste de EE. UU.	Norte de Alemania

Mejoras de SLA

No hay un Acuerdo de Nivel de Servicio mayor para Azure HDInsight en clústeres de AKS con las zonas de disponibilidad habilitadas.

Creación de un recurso con la zona de disponibilidad habilitada

Grupos de clústeres: puede seleccionar una o varias zonas de disponibilidad durante la creación del grupo de clústeres después de seleccionar la región.
Clústeres: puede seleccionar una o varias zonas de disponibilidad durante la creación del clúster.

Tolerancia a errores

Para prepararse para los errores de la zona de disponibilidad, se recomienda aprovisionar en exceso la capacidad de servicio para asegurarse de que el clúster pueda tolerar la pérdida de capacidad de una zona de disponibilidad y seguir funcionando sin degradar el rendimiento durante las interrupciones de toda la zona. Por ejemplo, si habilita 3 zonas de disponibilidad, el clúster debe tolerar 1/3 de los nodos inactivos (redondear hasta el entero más cercano).

Experiencia a nivel de zona

Azure HDInsight en el servicio AKS tiene redundancia de zona. Durante una interrupción en toda la zona, el cliente debe esperar una degradación del rendimiento debido a la caída de la capacidad. Los clientes todavía pueden crear nuevos grupos de clústeres y clústeres en las zonas de disponibilidad que no se ven afectadas. Los clústeres existentes pueden funcionar con una capacidad reducida. En la documentación, se proporcionan recomendaciones y procedimientos recomendados para cargas de trabajo de código abierto individuales.

Recuperación ante desastres y continuidad empresarial

La recuperación ante desastres (DR) consiste en recuperarse de eventos de alto impacto, como desastres naturales o implementaciones con errores, lo que produce tiempo de inactividad y pérdida de datos. Independientemente de la causa, el mejor remedio para un desastre es un plan de recuperación ante desastres bien definido y probado y un diseño de aplicaciones que apoye activamente la recuperación ante desastres. Antes de empezar a pensar en la creación del plan de recuperación ante desastres, vea Recomendaciones para diseñar una estrategia de recuperación ante desastres.

En lo que respecta a la recuperación ante desastres, Microsoft usa el modelo de responsabilidad compartida. En un modelo de responsabilidad compartida, Microsoft garantiza que la infraestructura de línea base y los servicios de plataforma estén disponibles. Al mismo tiempo, muchos servicios de Azure no replican automáticamente datos ni se revierten desde una región con errores para realizar la replicación cruzada en otra región habilitada. Para esos servicios, usted es el responsable de configurar un plan de recuperación ante desastres que funcione para la carga de trabajo. La mayoría de los servicios que se ejecutan en ofertas de plataforma como servicio (PaaS) de Azure proporcionan características e instrucciones para admitir la recuperación ante desastres y puede usar características específicas del servicio para admitir la recuperación rápida para ayudar a desarrollar el plan de recuperación ante desastres.

El servicio del plano de control y las bases de datos de Azure HDInsight en AKS se implementan en regiones de Azure. Entre estas regiones, las instancias de Azure HDInsight en AKS y las instancias de base de datos están aisladas. Cuando se produce una interrupción en el nivel de región, una región está inactiva. Todos los recursos de esta región, incluido el RP (proveedor de recursos) del plano de control de Azure HDInsight en AKS, la base de datos del plano de control de Azure HDInsight en AKS y todos los clústeres de clientes de esta región. En este caso, solo podemos esperar a que finalice la interrupción regional. Cuando se recupera completamente la interrupción zonal, el servicio Azure HDInsight en AKS vuelve a estar activo y todos los clústeres de clientes vuelven a la normalidad. Es posible que encuentre algunos problemas debido a la incoherencia de los datos después de la interrupción y puede necesitar una corrección manual en función de las cargas de trabajo de aplicación.

Recuperación ante desastres entre regiones

Azure HDInsight en AKS actualmente no admite la conmutación por error entre regiones. La mejora de la continuidad empresarial mediante la recuperación ante desastres de alta disponibilidad entre regiones requiere diseños arquitectónicos de mayor complejidad y un costo más alto. Los clientes pueden optar por diseñar su propia solución para realizar copias de seguridad de datos clave y estado del trabajo en diferentes regiones.

Detección, notificación y administración de interrupciones

Use las herramientas de supervisión de Azure en HDInsight en AKS para detectar comportamientos anómalos en el clúster y establecer las notificaciones de alerta correspondientes. Puede habilitar Log Analytics de varias maneras y usar el servicio Prometheus administrado con paneles de Azure Grafana para la supervisión. Para obtener más información, vea Integración de Azure Monitor.
Suscríbase a las alertas de estado de Azure para recibir notificaciones sobre problemas de servicio, mantenimiento planeado, avisos de estado y seguridad para una suscripción, un servicio o una región. Las notificaciones de estado que incluyen la causa del problema y la hora de llegada estimada resuelta le ayudan a ejecutar mejor la conmutación por error y la conmutación por recuperación. Para más información, consulte Administración del estado del servicio y Documentación de Azure Service Health.

Recuperación ante desastres de una sola región

Actualmente, Azure HDInsight en AKS solo tiene una oferta de servicio estándar y los clústeres se crean en una única región geográfica. Los clientes son responsables de la configuración de la recuperación ante desastres en función de los requisitos de la aplicación.

Capacidad y resistencia proactiva de la recuperación ante desastres

Azure HDInsight en AKS y sus clientes operan con el modelo de responsabilidad compartida, lo que significa que el cliente debe abordar los requisitos de recuperación ante desastres para el servicio que implementan y controlan. Para asegurarse de que la recuperación sea proactiva, los clientes siempre tienen que implementar previamente regiones secundarias, ya que no hay ninguna garantía de que haya capacidad en el momento del impacto para aquellos que no han asignado previamente.

A diferencia de HDInsight, las máquinas virtuales que se usan en clústeres de HDInsight en AKS requieren la misma cuota que las máquinas virtuales de Azure. Para más información, consulte Planeamiento de capacidad.

Para más información sobre los elementos que se describen en este artículo, consulte:

Compartir a través de

Confiabilidad en Azure HDInsight en Azure Kubernetes Service

Recomendaciones sobre la confiabilidad

Matriz de prioridad de recomendaciones de fiabilidad

Resumen de recomendaciones de fiabilidad

Compatibilidad de zonas de disponibilidad

Requisitos previos

Mejoras de SLA

Creación de un recurso con la zona de disponibilidad habilitada

Tolerancia a errores

Experiencia a nivel de zona

Recuperación ante desastres y continuidad empresarial

Recuperación ante desastres entre regiones

Detección, notificación y administración de interrupciones

Recuperación ante desastres de una sola región

Capacidad y resistencia proactiva de la recuperación ante desastres

Comentarios

Comentarios

Recursos adicionales

Compartir a través de

Confiabilidad en Azure HDInsight en Azure Kubernetes Service

Recomendaciones sobre la confiabilidad

Matriz de prioridad de recomendaciones de fiabilidad

Resumen de recomendaciones de fiabilidad

Compatibilidad de zonas de disponibilidad

Requisitos previos

Mejoras de SLA

Creación de un recurso con la zona de disponibilidad habilitada

Tolerancia a errores

Experiencia a nivel de zona

Recuperación ante desastres y continuidad empresarial

Recuperación ante desastres entre regiones

Detección, notificación y administración de interrupciones

Recuperación ante desastres de una sola región

Capacidad y resistencia proactiva de la recuperación ante desastres

Contenido relacionado

Comentarios

Comentarios

Recursos adicionales