Alta disponibilidad de los datos con Apache Kafka en HDInsight

Aprenda a configurar réplicas de partición para que los temas de Apache Kafka puedan aprovechar la configuración del bastidor de hardware subyacente. Esta configuración garantiza la disponibilidad de los datos almacenados en Apache Kafka en HDInsight.

Dominios de error y de actualización con Apache Kafka

Un dominio de error es una agrupación lógica del hardware subyacente en un centro de datos de Azure. Todos los dominios de error comparten la fuente de energía y el conmutador de red. Las máquinas virtuales y los discos administrados que implementan los nodos en un clúster de HDInsight se distribuyen por estos dominios de error. Esta arquitectura limita el impacto potencial de errores del hardware físico.

Cada región de Azure tiene un número concreto de dominios de error. Para obtener una lista de los dominios y el número de dominios de error que contienen, consulte la documentación de los conjuntos de disponibilidad.

Importante

Kafka no es compatible con dominios de error. Cuando se crea un tema en Kafka, este puede almacenar todas las réplicas de las particiones en el mismo dominio de error. Para solucionar este problema, HDInsight proporciona la herramienta de reequilibrio de particiones de Kafka.

Cuándo se deben reequilibrar las réplicas de las particiones

Para garantizar la máxima disponibilidad de los datos de Kafka, es preciso reequilibrar las réplicas de las particiones del tema en las siguientes ocasiones:

  • Cuando se crean un nuevo tema o una partición

  • Cuando un clúster se escala verticalmente

Factor de replicación

Importante

Se recomienda utilizar una región de Azure que contenga tres dominios de error y un factor de replicación de 3.

Si debe usar una región que contenga solo dos dominios de error, use un factor de replicación de 4 para distribuir las réplicas uniformemente entre los dominios de error de dos.

Para ver un ejemplo sobre la creación de temas y la configuración del factor de replicación, consulte el documento de introducción a Apache Kafka en HDInsight.

Reequilibrio de réplicas de particiones

Use la herramienta de reequilibrio de particiones de Apache Kafka para reequilibrar los temas seleccionados. Esta herramienta se debe ejecutar desde una sesión de SSH en el nodo principal del clúster de Kafka.

Para más información acerca de la conexión con HDInsight mediante SSH, consulte el documento Uso de SSH con HDInsight.

Pasos siguientes