Migrar o cluster do HDInsight para uma versão mais recente

Para tirar partido das funcionalidades mais recentes do HDInsight, recomendamos migrar os clusters do HDInsight regularmente para a versão mais recente. O HDInsight não suporta atualizações no local onde um cluster existente é atualizado para uma versão componente mais recente. Tem de criar um novo cluster com a versão de componente e plataforma desejada e, em seguida, migrar as suas aplicações para utilizar o novo cluster. Siga as diretrizes abaixo para migrar as suas versões de cluster HDInsight.

Nota

Para obter informações sobre versões suportadas do HDInsight, consulte as versões componentes hdInsight.

Tarefas de migração

O fluxo de trabalho para atualizar o HDInsight Cluster é o seguinte. Diagrama de fluxo de trabalho de upgrade HDInsight

  1. Leia cada secção deste documento para compreender as alterações que podem ser necessárias ao atualizar o seu cluster HDInsight.
  2. Criar um cluster como um ambiente de garantia de teste/qualidade. Para obter mais informações sobre a criação de um cluster, consulte Saiba como criar clusters HDInsight baseados em Linux
  3. Copiar empregos existentes, fontes de dados e afundar para o novo ambiente.
  4. Realize testes de validação para garantir que os seus trabalhos funcionam como esperado no novo cluster.

Assim que verificar que tudo funciona como esperado, marque o tempo de inatividade para a migração. Durante este tempo de inatividade, faça as seguintes ações:

  1. Ressari quaisquer dados transitórios armazenados localmente nos nós do cluster. Por exemplo, se tiver dados armazenados diretamente num nó de cabeça.
  2. Elimine o cluster existente.
  3. Crie um cluster na mesma sub-rede VNET com a versão HDI mais recente (ou suportada) utilizando a mesma loja de dados predefinida que o cluster anterior utilizou. Isto permite que o novo cluster continue a trabalhar contra os seus dados de produção existentes.
  4. Importe quaisquer dados transitórios que tenha apoiado.
  5. Iniciar trabalhos/continuar a processar utilizando o novo cluster.

Orientação específica da carga de trabalho

Os seguintes documentos fornecem orientações sobre como migrar cargas de trabalho específicas:

Cópia de segurança e restauro

Para obter mais informações sobre a cópia de segurança da base de dados e restaurar, consulte recuperar uma base de dados na Base de Dados SQL do Azure utilizando cópias de dados automáticas.

Cenários de upgrade

Como mencionado acima, a Microsoft recomenda que os clusters HDInsight sejam regularmente migrados para a versão mais recente, de forma a tirar partido de novas funcionalidades e correções. Consulte a seguinte lista de razões que solicitamos que um cluster seja eliminado e redistribuído:

  • A versão do cluster é aposentado ou em suporte básico e você está tendo um problema de cluster que seria resolvido com uma versão mais recente.
  • A causa principal de um problema de cluster está determinada a relacionar um VM de tamanho inferior. Consulte a configuração recomendada do nó da Microsoft.
  • Um cliente abre um caso de suporte e a equipa de engenharia da Microsoft determina que o problema já foi corrigido numa versão de cluster mais recente.
  • Uma base de dados de metástasias padrão (Ambari, Hive, Oozie, Ranger) atingiu o seu limite de utilização. A Microsoft pedir-lhe-á para recriar o cluster utilizando uma base de dados de metastore personalizada .
  • A causa principal de um problema de cluster deve-se a uma operação não apoiada. Eis algumas das operações comuns não apoiadas:
    • Movendo-se ou adicionando um serviço em Ambari. Consulte as informações sobre os serviços de cluster em Ambari, uma das ações disponíveis no menu Ações de Serviço é Move [Nome de Serviço]. Outra ação é adicionar [Nome de Serviço]. Ambas as opções não são apoiadas.
    • Corrupção de pacote python. Os aglomerados HDInsight dependem dos ambientes python incorporados, Python 2.7 e Python 3.5. Instalar diretamente pacotes personalizados nesses ambientes incorporados padrão pode causar alterações inesperadas na versão da biblioteca e quebrar o cluster. Saiba como instalar com segurança pacotes Pitão externos personalizados para as suas aplicações Spark.
    • Software de terceiros. Os clientes têm a capacidade de instalar software de terceiros nos seus clusters HDInsight; no entanto, recomendaremos recriar o cluster se quebrar a funcionalidade existente.
    • Várias cargas de trabalho no mesmo aglomerado. No HDInsight 4.0, o Conector do Armazém da Colmeia necessita de aglomerados separados para cargas de trabalho de faíscas e Interactive Query. Siga estes passos para configurar ambos os clusters em Azure HDInsight. Da mesma forma, a integração do Spark com o HBASE requer dois agrupamentos diferentes.
    • A palavra-passe de Ambari DB personalizada alterada. A palavra-passe DB Ambari é definida durante a criação do cluster e não há nenhum mecanismo atual para atualizá-la. Se um cliente implementar o cluster com um DB Ambari personalizado, eles terão a capacidade de alterar a palavra-passe DB no DB SQL; no entanto, não há como atualizar esta palavra-passe para um cluster HDInsight em execução.

Passos seguintes