Este artigo fornece respostas para algumas das perguntas mais comuns sobre como executar o Azure HDInsight.
Criar ou eliminar clusters do HDInsight
Como posso aprovisionar um cluster do HDInsight?
Para analisar os tipos de clusters HDInsight e os métodos de provisionamento, consulte Configurar clusters no HDInsight com Apache Hadoop, Apache Spark, Apache Kafka e muito mais.
Como faço para excluir um cluster HDInsight existente?
Para saber mais sobre como excluir um cluster quando ele não estiver mais em uso, consulte Excluir um cluster HDInsight.
Tente deixar pelo menos 30 a 60 minutos entre as operações de criação e exclusão. Caso contrário, a operação pode falhar com a seguinte mensagem de erro:
Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.
Como faço para selecionar o número correto de núcleos ou nós para minha carga de trabalho?
O número apropriado de núcleos e outras opções de configuração dependem de vários fatores.
Para obter mais informações, consulte Planejamento de capacidade para clusters HDInsight.
Quais são os vários tipos de nós em um cluster HDInsight?
Consulte Tipos de recursos em clusters do Azure HDInsight.
Quais são as práticas recomendadas para criar grandes clusters HDInsight?
- Recomende configurar clusters HDInsight com um banco de dados Ambari personalizado para melhorar a escalabilidade do cluster.
- Use o Azure Data Lake Storage Gen2 para criar clusters HDInsight para aproveitar a maior largura de banda e outras características de desempenho do Azure Data Lake Storage Gen2.
- Os nós principais devem ser suficientemente grandes para acomodar vários serviços mestre em execução nesses nós.
- Algumas cargas de trabalho específicas, como a Consulta Interativa, também precisarão de nós maiores do Zookeeper. Considere um mínimo de oito VMs principais.
- No caso do Hive e do Spark, use o metastore externo do Hive.
Componentes Individuais
Posso instalar componentes adicionais no meu cluster?
Sim. Para instalar componentes adicionais ou personalizar a configuração do cluster, use:
Scripts durante ou após a criação. Os scripts são invocados por meio de ação de script. A ação de script é uma opção de configuração que você pode usar no portal do Azure, nos cmdlets do Windows PowerShell do HDInsight ou no SDK do HDInsight .NET. Essa opção de configuração pode ser usada no portal do Azure, nos cmdlets do Windows PowerShell do HDInsight ou no SDK do HDInsight .NET.
Plataforma de aplicativos HDInsight para instalar aplicativos.
Para obter uma lista de componentes suportados, consulte Quais são os componentes e versões do Apache Hadoop disponíveis com o HDInsight?
Posso atualizar os componentes individuais pré-instalados no cluster?
Se você atualizar componentes internos ou aplicativos pré-instalados no cluster, a configuração resultante não será suportada pela Microsoft. Essas configurações de sistema não foram testadas pela Microsoft. Tente usar uma versão diferente do cluster HDInsight que já possa ter a versão atualizada do componente pré-instalada.
Por exemplo, não há suporte para a atualização do Hive como um componente individual. O HDInsight é um serviço gerenciado e muitos serviços são integrados ao servidor Ambari e testados. A atualização de um Hive por si só faz com que os binários indexados de outros componentes sejam alterados e causará problemas de integração de componentes no cluster.
O Spark e o Kafka podem ser executados no mesmo cluster HDInsight?
Não, não é possível executar o Apache Kafka e o Apache Spark no mesmo cluster HDInsight. Crie clusters separados para Kafka e Spark para evitar problemas de contenção de recursos.
Como faço para alterar o fuso horário em Ambari?
Abra a interface do usuário da Web do Ambari em
https://CLUSTERNAME.azurehdinsight.net
, onde CLUSTERNAME é o nome do cluster.No canto superior direito, selecione admin | Configurações.
Na janela Configurações do Usuário, selecione o novo fuso horário na lista suspensa Fuso horário e clique em Salvar.
Metastore
Como posso migrar do metastore existente para o Banco de Dados SQL do Azure?
Para migrar do SQL Server para o Banco de Dados SQL do Azure, consulte Tutorial: Migrar o SQL Server para um único banco de dados ou banco de dados em pool no Banco de Dados SQL do Azure offline usando DMS.
O metastore do Hive é excluído quando o cluster é excluído?
Depende do tipo de metastore que o cluster está configurado para usar.
Para um metastore padrão: o metastore padrão faz parte do ciclo de vida do cluster. Quando você exclui um cluster, o metastore e os metadados correspondentes também são excluídos.
Para um metastore personalizado: o ciclo de vida do metastore não está vinculado ao ciclo de vida de um cluster. Assim, você pode criar e excluir clusters sem perder metadados. Os metadados, como os esquemas do Hive, persistem mesmo depois que você exclui e recria o cluster HDInsight.
Para obter mais informações, consulte Usar repositórios de metadados externos no Azure HDInsight.
A migração de um metastore do Hive também migra as políticas padrão do banco de dados Ranger?
Não, a definição de política está no banco de dados Ranger, portanto, migrar o banco de dados Ranger migrará sua política.
É possível migrar um metastore do Hive de um cluster ESP (Enterprise Security Package) para um cluster não ESP e vice-versa?
Sim, você pode migrar um metastore do Hive de um cluster ESP para um cluster não-ESP.
Como posso estimar o tamanho de um banco de dados de metastore do Hive?
Um metastore do Hive é usado para armazenar os metadados de fontes de dados usadas pelo servidor Hive. Os requisitos de tamanho dependem em parte do número e da complexidade das fontes de dados do Hive. Esses itens não podem ser estimados antecipadamente. Conforme descrito nas diretrizes do metastore do Hive, você pode começar com uma camada S2. A camada fornece 50 DTU e 250 GB de armazenamento e, se você vir um gargalo, aumente a escala do banco de dados.
Você dá suporte a qualquer outro banco de dados diferente do Banco de Dados SQL do Azure como um metastore externo?
Não, a Microsoft suporta apenas a Base de Dados SQL do Azure como um metastore personalizado externo.
Posso compartilhar um metastore em vários clusters?
Sim, você pode compartilhar metastore personalizado em vários clusters, desde que eles estejam usando a mesma versão do HDInsight.
Conectividade e redes virtuais
Quais são as implicações do bloqueio das portas 22 e 23 na minha rede?
Se você bloquear as portas 22 e 23, não terá acesso SSH ao cluster. Essas portas não são usadas pelo serviço HDInsight.
Para obter mais informações, consulte os documentos seguintes:
Posso implantar uma máquina virtual adicional na mesma sub-rede que um cluster HDInsight?
Sim, você pode implantar uma máquina virtual adicional na mesma sub-rede que um cluster HDInsight. As seguintes configurações são possíveis:
Nós de borda: você pode adicionar outro nó de borda ao cluster, conforme descrito em Usar nós de borda vazios em clusters Apache Hadoop no HDInsight.
Nós autônomos: você pode adicionar uma máquina virtual autônoma à mesma sub-rede e acessar o cluster a partir dessa máquina virtual usando o ponto
https://<CLUSTERNAME>-int.azurehdinsight.net
de extremidade privado. Para obter mais informações, consulte Controlar o tráfego de rede.
Devo armazenar dados no disco local de um nó de borda?
Não, armazenar dados em um disco local não é uma boa ideia. Se o nó falhar, todos os dados armazenados localmente serão perdidos. Recomendamos armazenar dados no Azure Data Lake Storage Gen2 ou no armazenamento de Blob do Azure, ou montando um compartilhamento do Azure Files para armazenar os dados.
Posso adicionar um cluster HDInsight existente a outra rede virtual?
Não, não podes. A rede virtual deve ser especificada no momento do provisionamento. Se nenhuma rede virtual for especificada durante o provisionamento, a implantação criará uma rede interna que não será acessível de fora. Para obter mais informações, consulte Adicionar o HDInsight a uma rede virtual existente.
Segurança e Certificados
Quais são as recomendações para proteção contra malware em clusters do Azure HDInsight?
Para obter informações sobre proteção contra malware, consulte Microsoft Antimalware para Serviços de Nuvem do Azure e Máquinas Virtuais.
Como posso criar um keytab para um cluster ESP do HDInsight?
Crie um keytab Kerberos para seu nome de usuário de domínio. Mais tarde, você pode usar esse keytab para autenticar clusters remotos ingressados em domínios sem inserir uma senha. O nome de domínio é maiúsculo:
ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q
Quando a salga é necessária para a criptografia AES256 ao criar o keytab?
Se o seu TenantName & DomainName forem diferentes (exemplo TenantName – bob@CONTOSO.ONMICROSOFT.COM & DomainName – bob@CONTOSOMicrosoft.ONMICROSOFT.COM), você precisará adicionar um valor SALT usando a opção -s.
Como determino o valor adequado de SALT?
- Use um login Kerberos interativo para determinar o valor de sal adequado para o keytab. O login Kerberos interativo usará a criptografia mais alta por padrão. O rastreio deve permitir observar o sal. Abaixo está um exemplo de login Kerberos:
$ KRB5_TRAACE=/dev/stdout kinit <username> -V
- Olhe através da saída para o sal "......." linha.
- Use esse valor salt ao criar o keytab.
ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96 -s <SALTvalue>
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q
Posso usar um locatário existente do Microsoft Entra para criar um cluster HDInsight que tenha o ESP?
Habilite os Serviços de Domínio do Microsoft Entra antes de criar um cluster HDInsight com ESP. O Hadoop de código aberto depende do Kerberos para autenticação (em oposição ao OAuth).
Para associar VMs a um domínio, você deve ter um controlador de domínio. Os Serviços de Domínio Microsoft Entra são o controlador de domínio gerenciado e são considerados uma extensão do Microsoft Entra ID. Os Serviços de Domínio Microsoft Entra fornecem todos os requisitos Kerberos para criar um cluster Hadoop seguro de forma gerenciada. O HDInsight como um serviço gerenciado integra-se aos Serviços de Domínio Microsoft Entra para fornecer segurança.
Posso usar um certificado autoassinado em uma configuração LDAP segura dos Serviços de Domínio Microsoft Entra e provisionar um cluster ESP?
Recomenda-se o uso de um certificado emitido por uma autoridade de certificação. Mas o uso de um certificado autoassinado também é suportado no ESP. Para obter mais informações, consulte:
Posso instalar o Data Analytics Studio (DAS) como um cluster ESP?
Não, o DAS não é suportado em clusters ESP.
Como posso puxar a atividade de login mostrada no Ranger?
Para requisitos de auditoria, a Microsoft recomenda habilitar os logs do Azure Monitor conforme descrito em Usar logs do Azure Monitor para monitorar clusters HDInsight.
Posso desativar o 'Clamscan' no meu cluster?
Clamscan
é o software antivírus executado no cluster HDInsight e é usado pela segurança do Azure (azsecd) para proteger seus clusters contra ataques de vírus. A Microsoft recomenda vivamente que os utilizadores se abstenham de fazer quaisquer alterações à configuração predefinida Clamscan
.
Este processo não interfere ou retira quaisquer ciclos de outros processos. Cederá sempre a outro processo. Os picos de CPU devem Clamscan
ser vistos apenas quando o sistema está ocioso.
Em cenários nos quais você deve controlar a agenda, você pode usar as seguintes etapas:
Desative a execução automática usando o seguinte comando:
sudo
usr/local/bin/azsecd config -s clamav -d Disabled
sudo serviço azsecd reiniciarAdicione um trabalho Cron que execute o seguinte comando como root:
/usr/local/bin/azsecd manual -s clamav
Para obter mais informações sobre como configurar e executar um trabalho cron, consulte Como configurar um trabalho cron?
Por que o LLAP está disponível em clusters Spark ESP?
O LLAP está ativado por razões de segurança (Apache Ranger), não por desempenho. Use VMs de nó maiores para acomodar o uso de recursos de LLAP (por exemplo, D13V2 mínimo).
Como posso adicionar grupos adicionais do Microsoft Entra depois de criar um cluster ESP?
Há duas maneiras de atingir esse objetivo: 1- Você pode recriar o cluster e adicionar o grupo adicional no momento da criação do cluster. Se você estiver usando a sincronização com escopo nos Serviços de Domínio Microsoft Entra, verifique se o grupo B está incluído na sincronização com escopo.
2- Adicione o grupo como um subgrupo aninhado do grupo anterior que foi usado para criar o cluster ESP. Por exemplo, se você criou um cluster ESP com grupo A
, você pode mais tarde adicionar grupo B
como um subgrupo aninhado de A
e após aproximadamente uma hora ele será sincronizado e disponível no cluster automaticamente.
Armazenamento
Posso adicionar um Azure Data Lake Storage Gen2 a um cluster HDInsight existente como uma conta de armazenamento adicional?
Não, atualmente não é possível adicionar uma conta de armazenamento do Azure Data Lake Storage Gen2 a um cluster que tenha o armazenamento de blob como seu armazenamento principal. Para obter mais informações, consulte Comparar opções de armazenamento.
Como posso encontrar a entidade de serviço atualmente vinculada para uma conta de armazenamento Data Lake?
Você pode encontrar suas configurações no acesso ao Data Lake Storage Gen1 em suas propriedades de cluster no portal do Azure. Para obter mais informações, consulte Verificar a configuração do cluster.
Como posso calcular o uso de contas de armazenamento e contêineres de blob para meus clusters HDInsight?
Execute uma das seguintes ações:
Encontre o tamanho do /user/hive/. Lixeira/ pasta no cluster HDInsight, usando a seguinte linha de comando:
hdfs dfs -du -h /user/hive/.Trash/
Como posso configurar a auditoria para minha conta de armazenamento de blob?
Para auditar contas de armazenamento de blob, configure o monitoramento usando o procedimento em Monitorar uma conta de armazenamento no portal do Azure. Um log de auditoria HDFS fornece apenas informações de auditoria apenas para o sistema de arquivos HDFS local (hdfs://mycluster). Ele não inclui operações que são feitas no armazenamento remoto.
Como posso transferir arquivos entre um contêiner de blob e um nó principal do HDInsight?
Execute um script semelhante ao seguinte shell script no nó principal:
for i in cat filenames.txt
do
hadoop fs -get $i <local destination>
done
Nota
O filenames.txt de arquivo terá o caminho absoluto dos arquivos nos contêineres de blob.
Existem plugins Ranger para armazenamento?
Atualmente, não existe nenhum plug-in Ranger para armazenamento de blob e Azure Data Lake Storage Gen1 ou Gen2. Para clusters ESP, você deve usar o Armazenamento Azure Data Lake. Você pode pelo menos definir permissões de grão fino manualmente no nível do sistema de arquivos usando as ferramentas HDFS. Além disso, ao usar o Armazenamento Azure Data Lake, os clusters ESP farão parte do controle de acesso ao sistema de arquivos usando a ID do Microsoft Entra no nível do cluster.
Você pode atribuir políticas de acesso a dados aos grupos de segurança de seus usuários usando o Gerenciador de Armazenamento do Azure. Para obter mais informações, consulte:
Posso aumentar o armazenamento HDFS em um cluster sem aumentar o tamanho do disco dos nós de trabalho?
N.º Não é possível aumentar o tamanho do disco de nenhum nó de trabalho. Portanto, a única maneira de aumentar o tamanho do disco é descartar o cluster e recriá-lo com VMs de trabalho maiores. Não use o HDFS para armazenar dados do HDInsight, pois os dados serão excluídos se você excluir o cluster. Em vez disso, armazene seus dados no Azure. A expansão do cluster também pode adicionar capacidade adicional ao cluster HDInsight.
Nós periféricos
Posso adicionar um nó de borda após a criação do cluster?
Como posso me conectar a um nó de borda?
Depois de criar um nó de borda, você pode se conectar a ele usando SSH na porta 22. Você pode encontrar o nome do nó de borda no portal do cluster. Os nomes geralmente terminam com -ed.
Por que os scripts persistentes não são executados automaticamente em nós de borda recém-criados?
Você usa scripts persistentes para personalizar novos nós de trabalho adicionados ao cluster por meio de operações de dimensionamento. Os scripts persistentes não se aplicam aos nós de borda.
API REST
Quais são as chamadas da API REST para extrair uma exibição de consulta Tez do cluster?
Você pode usar os seguintes pontos de extremidade REST para extrair as informações necessárias no formato JSON. Use cabeçalhos de autenticação básica para fazer as solicitações.
Tez Query View
: https://< nome> do cluster.azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/Tez Dag View
: https://< nome> do cluster.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/
Como faço para recuperar os detalhes de configuração do cluster HDI usando um usuário do Microsoft Entra?
Para negociar tokens de autenticação adequados com seu usuário do Microsoft Entra, passe pelo gateway usando o seguinte formato:
- https://
<cluster dnsname>
.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1
Como faço para usar o Ambari RESTful para monitorar o desempenho do YARN?
Se você chamar o comando Curl na mesma rede virtual ou em uma rede virtual emparelhada, o comando será:
curl -u <cluster login username> -sS -G
http://<headnodehost>:8080/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
Se você chamar o comando de fora da rede virtual ou de uma rede virtual não emparelhada, o formato do comando será:
Para um cluster não-ESP:
curl -u <cluster login username> -sS -G https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
Para um cluster ESP:
curl -u <cluster login username>-sS -G https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
Nota
Curl solicita uma senha. Tem de introduzir uma palavra-passe válida para o nome de utilizador de início de sessão do cluster.
Faturação
Quanto custa implantar um cluster HDInsight?
Para obter mais informações sobre preços e perguntas frequentes relacionadas à cobrança, consulte a página Preços do Azure HDInsight.
Quando o faturamento do HDInsight começa a ser interrompido?
A faturação do cluster do HDInsight tem início quando o cluster é criado e termina quando é eliminado. A faturação é proporcional por minuto.
Como posso cancelar a minha subscrição?
Para obter informações sobre como cancelar sua assinatura, consulte Cancelar sua assinatura do Azure.
Para subscrições pré-pagas, o que acontece depois de cancelar a minha subscrição?
Para obter informações sobre a sua subscrição depois de cancelada, consulte O que acontece depois de cancelar a minha subscrição?
Ramo de registo
Por que a versão do Hive aparece como 1.2.1000 em vez de 2.1 na interface do usuário do Ambari mesmo que eu esteja executando um cluster HDInsight 3.6?
Embora apenas 1.2 apareça na interface do usuário do Ambari, o HDInsight 3.6 contém o Hive 1.2 e o Hive 2.1.
Outras FAQ
O que o HDInsight oferece para recursos de processamento de fluxo em tempo real?
Para obter informações sobre os recursos de integração do processamento de fluxo, consulte Escolhendo uma tecnologia de processamento de fluxo no Azure.
Existe uma maneira de matar dinamicamente o nó principal do cluster quando o cluster está ocioso por um período específico?
Não é possível executar essa ação com clusters HDInsight. Você pode usar o Azure Data Factory para esses cenários.
Que ofertas de conformidade o HDInsight oferece?
Para obter informações sobre conformidade, consulte a Central de Confiabilidade da Microsoft.