Criar clusters do HDInsight com o Azure Data Lake Storage Gen1 com o portal do Azure

Saiba como utilizar o portal do Azure para criar um cluster do HDInsight com o Azure Data Lake Storage Gen1 como armazenamento predefinido ou um armazenamento adicional. Apesar de o armazenamento adicional ser opcional para um cluster do HDInsight, recomenda-se que armazene os seus dados empresariais nas contas de armazenamento adicionais.

Pré-requisitos

Antes de começar, certifique-se de que cumpriu os seguintes requisitos:

  • Uma subscrição do Azure. Aceda a Obter avaliação gratuita do Azure.
  • Uma conta Azure Data Lake Storage Gen1. Siga as instruções de Introdução ao Azure Data Lake Storage Gen1 com a portal do Azure. Também tem de criar uma pasta raiz na conta. Neste artigo, é utilizada uma pasta raiz denominada /clusters .
  • um principal de serviço Microsoft Entra. Este guia de procedimentos fornece instruções sobre como criar um principal de serviço no Microsoft Entra ID. No entanto, para criar um principal de serviço, tem de ser um administrador Microsoft Entra. Se for administrador, pode ignorar este pré-requisito e continuar.

Nota

Só pode criar um principal de serviço se for um administrador Microsoft Entra. O administrador de Microsoft Entra tem de criar um principal de serviço antes de poder criar um cluster do HDInsight com Data Lake Storage Gen1. Além disso, o principal de serviço tem de ser criado com um certificado, conforme descrito em Criar um principal de serviço com certificado.

Criar um cluster do HDInsight

Nesta secção, vai criar um cluster do HDInsight com Data Lake Storage Gen1 como o armazenamento predefinido ou adicional. Este artigo centra-se apenas na parte de configurar Data Lake Storage Gen1. Para obter as informações e procedimentos gerais de criação de clusters, veja Create Hadoop clusters in HDInsight (Criar clusters do Hadoop no HDInsight).

Criar um cluster com Data Lake Storage Gen1 como armazenamento predefinido

Para criar um cluster do HDInsight com um Data Lake Storage Gen1 como a conta de armazenamento predefinida:

  1. Inicie sessão no portal do Azure.

  2. Siga Criar clusters para obter as informações gerais sobre a criação de clusters do HDInsight.

  3. No painel Armazenamento, em Tipo de armazenamento primário, selecione Azure Data Lake Storage Gen1 e, em seguida, introduza as seguintes informações:

    Definições da conta de armazenamento do HDInsight

    • Selecione Conta do Data Lake Store: selecione uma conta de Data Lake Storage Gen1 existente. É necessária uma conta de Data Lake Storage Gen1 existente. Veja Pré-requisitos.
    • Caminho de raiz: introduza um caminho onde os ficheiros específicos do cluster devem ser armazenados. Na captura de ecrã, é /clusters/myhdiadlcluster/, na qual a pasta /clusters tem de existir e o Portal cria a pasta myhdicluster . O myhdicluster é o nome do cluster.
    • Acesso ao Data Lake Store: configure o acesso entre a conta Data Lake Storage Gen1 e o cluster do HDInsight. Para obter instruções, veja Configurar o acesso Data Lake Storage Gen1.
    • Contas de armazenamento adicionais: adicione contas de armazenamento do Azure como contas de armazenamento adicionais para o cluster. Para adicionar mais Data Lake Storage Gen1 contas é feita ao conceder ao cluster permissões sobre dados em mais contas Data Lake Storage Gen1 enquanto configura uma conta Data Lake Storage Gen1 como o tipo de armazenamento principal. Veja Configurar Data Lake Storage Gen1 acesso.
  4. No acesso ao Data Lake Store, clique em Selecionar e, em seguida, continue com a criação do cluster, conforme descrito em Criar clusters do Hadoop no HDInsight.

Criar um cluster com Data Lake Storage Gen1 como armazenamento adicional

As seguintes instruções criam um cluster do HDInsight com uma conta de armazenamento de Blobs do Azure como armazenamento predefinido e uma conta de armazenamento com Data Lake Storage Gen1 como armazenamento adicional.

Para criar um cluster do HDInsight com Data Lake Storage Gen1 como uma conta de armazenamento adicional:

  1. Inicie sessão no portal do Azure.

  2. Siga Criar clusters para obter as informações gerais sobre a criação de clusters do HDInsight.

  3. No painel Armazenamento , em Tipo de armazenamento primário, selecione Armazenamento do Azure e, em seguida, introduza as seguintes informações:

    Armazenamento adicional das definições da conta de armazenamento do HDInsight

    • Método de seleção – para especificar uma conta de armazenamento que faça parte da sua subscrição do Azure, selecione As minhas subscrições e, em seguida, selecione a conta de armazenamento. Para especificar uma conta de armazenamento que esteja fora da sua subscrição do Azure, selecione Chave de acesso e, em seguida, forneça as informações para a conta de armazenamento externa.

    • Contentor predefinido – utilize o valor predefinido ou especifique o seu próprio nome.

    • Contas de armazenamento adicionais – adicione mais contas de armazenamento do Azure como armazenamento adicional.

    • Acesso ao Data Lake Store – configure o acesso entre a conta Data Lake Storage Gen1 e o cluster do HDInsight. Para obter instruções, veja Configurar Data Lake Storage Gen1 acesso.

Configurar o acesso Data Lake Storage Gen1

Nesta secção, vai configurar Data Lake Storage Gen1 acesso a partir de clusters do HDInsight com um principal de serviço Microsoft Entra.

Especificar um principal de serviço

A partir do portal do Azure, pode utilizar um principal de serviço existente ou criar um novo.

Para criar um principal de serviço a partir do portal do Azure:

  1. Veja Criar Principal de Serviço e Certificados com Microsoft Entra ID.

Para utilizar um principal de serviço existente do portal do Azure:

  1. O Principal de Serviço deve ter permissões de proprietário na conta de Armazenamento. Veja Configurar permissões para que o Principal de Serviço seja proprietário na conta de armazenamento.

  2. Selecione Acesso ao Data Lake Store.

  3. No painel Data Lake Storage Gen1 acesso, selecione Utilizar existente.

  4. Selecione Principal de serviço e, em seguida, selecione um principal de serviço.

  5. Carregue o certificado (ficheiro.pfx) associado ao principal de serviço selecionado e, em seguida, introduza a palavra-passe do certificado.

    Adicionar principal de serviço ao cluster do HDInsight

  6. Selecione Acesso para configurar o acesso à pasta. Veja Configurar permissões de ficheiro.

Configurar permissões para o Principal de Serviço ser proprietário na conta de armazenamento

  1. No painel Controlo de Acesso (IAM) da conta de armazenamento, clique em Adicionar uma atribuição de função.
  2. No painel Adicionar uma atribuição de função, selecione Função como "proprietário", selecione o SPN e clique em guardar.

Configurar permissões de ficheiro

A configuração é diferente consoante a conta seja utilizada como armazenamento predefinido ou como uma conta de armazenamento adicional:

  • Utilizado como armazenamento predefinido

    • permissão no nível de raiz da conta Data Lake Storage Gen1
    • no nível de raiz do armazenamento do cluster do HDInsight. Por exemplo, a pasta /clusters utilizada anteriormente no tutorial.
  • Utilizar como armazenamento adicional

    • Permissão nas pastas onde precisa de acesso a ficheiros.

Para atribuir permissão na conta de armazenamento com Data Lake Storage Gen1 ao nível da raiz:

  1. No painel Data Lake Storage Gen1 acesso, selecione Acesso. O painel Selecionar permissões de ficheiro é aberto. Lista todas as contas de armazenamento na sua subscrição.

  2. Paire o rato sobre o nome da conta com Data Lake Storage Gen1 para tornar a caixa de verificação visível e, em seguida, selecione a caixa de verificação.

    Selecionar permissões de ficheiro

    Por predefinição, AS opções LER, ESCREVER E EXECUTAR estão todas selecionadas.

  3. Clique em Selecionar na parte inferior da página.

  4. Selecione Executar para atribuir permissão.

  5. Selecione Concluído.

Para atribuir permissão ao nível de raiz do cluster do HDInsight:

  1. No painel Data Lake Storage Gen1 acesso, selecione Acesso. O painel Selecionar permissões de ficheiro é aberto. Lista todas as contas de armazenamento com Data Lake Storage Gen1 na sua subscrição.
  2. No painel Selecionar permissões de ficheiro, selecione a conta de armazenamento com Data Lake Storage Gen1 nome para mostrar o respetivo conteúdo.
  3. Selecione a raiz de armazenamento do cluster do HDInsight ao selecionar a caixa de verificação à esquerda da pasta. De acordo com a captura de ecrã anterior, a raiz de armazenamento do cluster é a pasta /clusters que especificou ao selecionar Data Lake Storage Gen1 como armazenamento predefinido.
  4. Defina as permissões na pasta . Por predefinição, as opções ler, escrever e executar estão todas selecionadas.
  5. Clique em Selecionar na parte inferior da página.
  6. Selecione Executar.
  7. Selecione Concluído.

Se estiver a utilizar Data Lake Storage Gen1 como armazenamento adicional, tem de atribuir permissão apenas às pastas a que pretende aceder a partir do cluster do HDInsight. Por exemplo, na captura de ecrã abaixo, fornece acesso apenas à pasta mynewfolder numa conta de armazenamento com Data Lake Storage Gen1.

Atribuir permissões de principal de serviço ao cluster do HDInsight

Verificar a configuração do cluster

Após a conclusão da configuração do cluster, no painel do cluster, verifique os resultados ao efetuar um ou ambos os passos seguintes:

  • Para verificar se o armazenamento associado para o cluster é a conta com Data Lake Storage Gen1 que especificou, selecione Contas de armazenamento no painel esquerdo.

    Verificar o armazenamento associado

  • Para verificar se o principal de serviço está corretamente associado ao cluster do HDInsight, selecione Data Lake Storage Gen1 acesso no painel esquerdo.

    Verificar o principal de serviço

Exemplos

Depois de configurar o cluster com Data Lake Storage Gen1 como armazenamento, veja estes exemplos de como utilizar o cluster do HDInsight para analisar os dados armazenados no Data Lake Storage Gen1.

Executar uma consulta do Hive em dados num Data Lake Storage Gen1 (como armazenamento primário)

Para executar uma consulta do Hive, utilize a interface de vistas do Hive no portal do Ambari. Para obter instruções sobre como utilizar as vistas do Hive do Ambari, veja Utilizar a Vista do Hive com o Hadoop no HDInsight.

Quando trabalha com dados num Data Lake Storage Gen1, existem algumas cadeias para alterar.

Se utilizar, por exemplo, o cluster que criou com Data Lake Storage Gen1 como armazenamento primário, o caminho para os dados é: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Uma consulta do Hive para criar uma tabela a partir de dados de exemplo armazenados no Data Lake Storage Gen1 é semelhante à seguinte instrução:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Descrições:

  • adl://hdiadlsg1storage.azuredatalakestore.net/é a raiz da conta com Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster é a raiz dos dados do cluster que especificou ao criar o cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ é a localização do ficheiro de exemplo que utilizou na consulta.

Executar uma consulta do Hive em dados num Data Lake Storage Gen1 (como armazenamento adicional)

Se o cluster que criou utilizar o Armazenamento de blobs como armazenamento predefinido, os dados de exemplo não estão contidos na conta de armazenamento com Data Lake Storage Gen1 que são utilizados como armazenamento adicional. Nesse caso, transfira primeiro os dados do Armazenamento de blobs para a conta de armazenamento com Data Lake Storage Gen1 e, em seguida, execute as consultas, conforme mostrado no exemplo anterior.

Para obter informações sobre como copiar dados do Armazenamento de blobs para uma conta de armazenamento com Data Lake Storage Gen1, veja os seguintes artigos:

Utilizar Data Lake Storage Gen1 com um cluster do Spark

Pode utilizar um cluster do Spark para executar tarefas do Spark em dados armazenados num Data Lake Storage Gen1. Para obter mais informações, veja Utilizar o cluster do HDInsight Spark para analisar dados no Data Lake Storage Gen1.

Utilizar Data Lake Storage Gen1 numa topologia storm

Ver também