Criar cluster Spark no HDInsight no AKS (versão prévia)

Artigo
09/20/2024

Importante

O Azure HDInsight no AKS se aposentou em 31 de janeiro de 2025. Saiba mais com este comunicado.

Você precisa migrar suas cargas de trabalho para microsoft fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esse recurso está atualmente em versão prévia. Os termos de uso complementares para o Microsoft Azure Previews incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, consulte Azure HDInsight em informações de visualização do AKS. Para perguntas ou sugestões de funcionalidades, envie uma solicitação no AskHDInsight com os detalhes e siga-nos para obter mais atualizações na Comunidade Azure HDInsight .

Depois de concluir as etapas dos pré-requisitos da assinatura e e dos pré-requisitos de recursos e, e ter um pool de clusters implantado, prossiga usando o portal do Azure para criar um cluster Spark. Você pode usar o portal do Azure para criar um cluster do Apache Spark no pool de clusters. Em seguida, você pode criar um Jupyter Notebook e usá-lo para executar consultas SQL do Spark em tabelas do Apache Hive.

No portal do Azure, digite grupos de clusters e selecione grupos de clusters para ir para a página de grupos de clusters. Na página de pools de cluster, selecione o pool de clusters no qual você pode adicionar um novo cluster Spark.

Na página do pool de clusters específica, clique em + Novo cluster.

Esta etapa abre a página de criação do cluster.

Propriedade	Descrição
Subscrição	A assinatura do Azure que foi registrada para uso com o HDInsight no AKS na seção de Pré-requisitos será pré-preenchida.
Grupo de Recursos	O mesmo grupo de recursos do pool de clusters será pré-preenchido
Região	A mesma região do pool de clusters e do ambiente virtual será previamente preenchida.
Pool de clusters	O nome do pool de clusters será preenchido previamente
Versão do Pool do HDInsight	A versão do pool de clusters será pré-preenchida a partir da seleção de criação do pool
HDInsight na versão do AKS	Especificar o HDI na versão do AKS
Tipo de cluster	Na lista suspensa, selecione Spark
Versão do cluster	Selecione a versão da imagem a ser usada
Nome do cluster	Insira o nome do novo cluster
Identidade gerenciada atribuída pelo usuário	Selecione a identidade gerenciada atribuída pelo usuário que funcionará como uma cadeia de conexão com o armazenamento
Conta de armazenamento	Selecione a conta de armazenamento pré-criada que deve ser usada como armazenamento primário para o cluster
Nome do contêiner	Selecione o nome do contêiner (exclusivo) se já estiver criado ou crie um novo contêiner.
Catálogo do Hive (opcional)	Selecione o metastore do Hive pré-criado (banco de dados SQL do Azure)
Banco de Dados SQL para Hive	Na lista suspensa, selecione o Banco de Dados SQL em que deseja adicionar tabelas do metastore Hive.
Nome de usuário do administrador do SQL	Insira o nome de usuário do administrador do SQL
Cofre de chaves	Na lista suspensa, selecione o Key Vault, que contém um segredo com senha para o nome de usuário do administrador do SQL
Nome do segredo da senha SQL	Insira o nome do segredo do Key Vault onde a senha do banco de dados SQL é armazenada

Nota

Atualmente, o HDInsight dá suporte apenas a bancos de dados do MS SQL Server.
Devido à limitação do Hive, não há suporte para o caractere "-" (hífen) no nome do banco de dados metastore.

Selecione Próximo: Configuração + preços para continuar.

Propriedade	Descrição
Tamanho do nó	Selecione o tamanho a ser usado para os nós do Spark
Número de nós de trabalho	Selecione o número de nós para o cluster Spark. Desses, três nós são reservados para serviços de coordenador e sistema, os nós restantes são dedicados aos trabalhadores do Spark, um trabalho por nó. Por exemplo, em um cluster de cinco nós há dois trabalhos
Dimensionamento automático	Clique no botão de alternância para habilitar o Dimensionamento Automático
Tipo de dimensionamento automático	Selecione com base na carga ou no dimensionamento automático baseado em agendamento
Tempo limite suave de desativação	Especificar o prazo de desativação suave
Número de nós de trabalho padrão	Selecione o número de nós para dimensionamento automático
Fuso horário	Selecione o fuso horário
Regras de dimensionamento automático	Selecione o dia, a hora de início, a hora de término, nº de nós de trabalho
Habilitar o SSH	Se habilitado, permite definir prefixo e número de nós SSH

Clique em Avançar: Integrações para habilitar e selecionar o Log Analytics para registro.

O Azure Prometheus para monitoramento e métricas pode ser habilitado após a criação do cluster.
Clique em Avançar: Tags para continuar para a próxima página.

Na página Tags, insira qualquer tag que você deseja adicionar ao recurso.

Propriedade	Descrição
Nome	Opcional. Insira um nome como HDInsight na Visualização Privada do AKS para identificar facilmente todos os recursos associados aos seus recursos
Valor	Deixe isso em branco
Recurso	Selecionar Todos os recursos selecionados

Clique em Avançar: Revisar e criar.
Na página de revisão + criar, procure a mensagem 'Validação bem-sucedida' na parte superior da página e clique em criar.
A página , na qual o cluster é criado, é exibida durante o processo de implantação do. Leva de 5 a 10 minutos para criar o cluster. Depois que o cluster é criado, a mensagem Sua implantação é concluída é exibida. Se você navegar para longe da página, poderá verificar o status de suas Notificações.
Vá para a página de visão geral do cluster , você pode ver links de ponto de extremidade lá.

Compartilhar via

Criar cluster Spark no HDInsight no AKS (versão prévia)

Recursos adicionais