Elevada disponibilidade dos seus dados com o Apache Kafka no HDInsight

Saiba como configurar réplicas de partição para tópicos do Apache Kafka para tirar partido da configuração de rack de hardware subjacente. Esta configuração garante a disponibilidade dos dados armazenados no Apache Kafka no HDInsight.

Domínios de falha e atualização com o Apache Kafka

Um domínio de falha é um agrupamento lógico de hardware subjacente num centro de dados do Azure. Cada domínio de falha partilha um comutador de rede e uma fonte de alimentação. As máquinas virtuais e os discos geridos que implementam os nós num cluster HDInsight são distribuídos por esses domínios de falha. Esta arquitetura limita o possível impacto de falhas físicas de hardware.

Cada região do Azure tem um número específico de domínios de falha. Para obter uma lista de domínios e o número de domínios de falha que contêm, consulte a documentação Availability Sets (Conjuntos de disponibilidade).

Importante

O Kafka não está ciente dos domínios de falha. Quando cria um tópico no Kafka, pode armazenar todas as réplicas da partição no mesmo domínio de falha. Para resolver este problema, o HDInsight disponibiliza a ferramenta de reequilíbrio de partições do Kafka.

Quando deve reequilibrar as réplicas de partições

Para garantir a maior disponibilidade dos seus dados do Kafka, deve reequilibrar as réplicas de partições do seu tópico nos seguintes momentos:

  • Quando é criado um novo tópico ou partição

  • Quando expandir um cluster

Fator de replicação

Importante

É recomendável utilizar uma região do Azure que contenha três domínios de falha e um fator de replicação de 3.

Se tiver de utilizar uma região que contenha apenas dois domínios de falha, utilize um fator de replicação de 4 para distribuir as réplicas uniformemente entre os dois domínios de falha.

Para obter um exemplo de como criar tópicos e definir o fator de replicação, veja o documento Iniciar com o Apache Kafka no HDInsight .

Como reequilibrar as réplicas de partições

Utilize a ferramenta de reequilíbrio de partições do Apache Kafka para reequilibrar os tópicos selecionados. Esta ferramenta deve ser executada numa sessão SSH para o nó principal do cluster do Kafka.

Para obter mais informações sobre a ligação ao HDInsight através do SSH, consulte o documento Utilizar o SSH com o HDInsight.

Passos seguintes