Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Saiba como usar o Azure PowerShell para configurar um cluster HDInsight com o Azure Data Lake Storage Gen1, como armazenamento adicional.
Para tipos de cluster suportados, o Data Lake Storage Gen1 pode ser usado como um armazenamento padrão ou como uma conta de armazenamento adicional. Quando o Data Lake Storage Gen1 é usado como armazenamento adicional, a conta de armazenamento padrão para os clusters ainda será o armazenamento de Blob do Azure (WASB) e os arquivos relacionados ao cluster (como logs, etc.) ainda serão gravados no armazenamento padrão, enquanto os dados que você deseja processar podem ser armazenados em uma conta do Data Lake Storage Gen1. O uso do Data Lake Storage Gen1 como uma conta de armazenamento adicional não afeta o desempenho ou a capacidade de leitura/gravação no armazenamento a partir do cluster.
Usando o Data Lake Storage Gen1 para armazenamento de cluster HDInsight
Aqui estão algumas considerações importantes para usar o HDInsight com o Data Lake Storage Gen1:
A opção para criar clusters HDInsight com acesso ao Data Lake Storage Gen1 como armazenamento padrão está disponível para o HDInsight versão 3.5 e 3.6.
A opção para criar clusters HDInsight com acesso ao Data Lake Storage Gen1 como armazenamento adicional está disponível para as versões 3.2, 3.4, 3.5 e 3.6 do HDInsight.
Neste artigo, provisionamos um cluster Hadoop com o Data Lake Storage Gen1 como armazenamento adicional. Para obter instruções sobre como criar um cluster Hadoop com o Data Lake Storage Gen1 como armazenamento padrão, consulte Criar um cluster HDInsight com o Data Lake Storage Gen1 usando o portal do Azure.
Pré-requisitos
Observação
Recomendamos que utilize o módulo do Azure Az PowerShell para interagir com o Azure. Veja Instalar o Azure PowerShell para começar. Para saber como migrar para o módulo do Az PowerShell, veja Migrar o Azure PowerShell do AzureRM para o Az.
Antes de começar este tutorial, tem de ter o seguinte:
Uma assinatura do Azure. Veja Obter versão de avaliação gratuita do Azure.
Azure PowerShell 1.0 ou superior. Consulte Como instalar e configurar o Azure PowerShell.
Entidade de serviço principal Microsoft Entra. As etapas deste tutorial fornecem instruções sobre como criar um principal de serviço no Microsoft Entra ID. No entanto, você deve ser um administrador do Microsoft Entra para poder criar uma entidade de serviço. Se você é um administrador do Microsoft Entra, você pode ignorar este pré-requisito e continuar com o tutorial.
Se não for um administrador do Microsoft Entra, não poderá executar as etapas necessárias para criar uma entidade de serviço. Nesse caso, o administrador do Microsoft Entra deve primeiro estabelecer um principal de serviço antes de poder criar um cluster HDInsight com o Data Lake Storage Gen1. Além disso, a entidade de serviço deve ser criada usando um certificado, conforme descrito em Criar uma entidade de serviço com certificado.
Criar um cluster HDInsight com o Data Lake Storage Gen1
O modelo do Resource Manager e os pré-requisitos para usar o modelo estão disponíveis no GitHub em Implantar um cluster Linux HDInsight com o novo Data Lake Storage Gen1. Siga as instruções fornecidas neste link para criar um cluster HDInsight com o Data Lake Storage Gen1 como armazenamento adicional.
As instruções no link mencionado acima exigem o PowerShell. Antes de começar com essas instruções, certifique-se de que inicia sessão na sua conta do Azure. Na área de trabalho, abra uma nova janela do Azure PowerShell e insira os seguintes trechos. Quando lhe for pedido para iniciar sessão, certifique-se de que inicia sessão como um dos administradores/proprietários da subscrição:
# Log in to your Azure account
Connect-AzAccount
# List all the subscriptions associated to your account
Get-AzSubscription
# Select a subscription
Set-AzContext -SubscriptionId <subscription ID>
O modelo implanta estes tipos de recursos:
Carregue dados de exemplo para o Data Lake Storage Gen1
O modelo do Resource Manager cria uma nova conta de armazenamento com o Data Lake Storage Gen1 e a associa ao cluster HDInsight. Agora você deve carregar alguns dados de exemplo para o Data Lake Storage Gen1. Você precisará desses dados posteriormente no tutorial para executar trabalhos de um cluster HDInsight que acessam dados na conta de armazenamento com o Data Lake Storage Gen1. Para obter instruções sobre como carregar dados, consulte Carregar um arquivo para o Data Lake Storage Gen1. Se estiver à procura de alguns dados de exemplo para carregar, pode obter a pasta Ambulance Data a partir do Repositório de Git do Azure Data Lake.
Definir ACLs relevantes nos dados de exemplo
Para garantir que os dados de exemplo carregados estejam acessíveis a partir do cluster HDInsight, você deve garantir que o aplicativo Microsoft Entra usado para estabelecer a identidade entre o cluster HDInsight e o Data Lake Storage Gen1 tenha acesso ao arquivo/pasta que você está tentando acessar. Para fazer isso, execute as seguintes etapas.
- Encontre o nome do aplicativo Microsoft Entra associado ao cluster HDInsight e a conta de armazenamento com o Data Lake Storage Gen1. Uma maneira de procurar o nome é abrir o painel do cluster HDInsight que criou usando o modelo do Gerenciador de Recursos, clicar na guia Identidade do Microsoft Entra do Cluster e procurar o valor de Nome de Exibição da Entidade de Serviço.
- Agora, forneça acesso a este aplicativo Microsoft Entra no arquivo/pasta que você deseja acessar a partir do cluster HDInsight. Para definir as ACLs corretas no arquivo/pasta no Data Lake Storage Gen1, consulte Protegendo dados no Data Lake Storage Gen1.
Executar trabalhos de teste no cluster HDInsight para usar o Data Lake Storage Gen1
Depois de configurar um cluster HDInsight, você pode executar trabalhos de teste no cluster para testar se o cluster HDInsight pode acessar o Data Lake Storage Gen1. Para fazer isso, executaremos um trabalho de exemplo do Hive que cria uma tabela usando os dados de exemplo que você carregou anteriormente em sua conta de armazenamento com o Data Lake Storage Gen1.
Nesta secção, acede a um cluster Linux do HDInsight via SSH e executa a consulta de exemplo do Hive. Se você estiver usando um cliente Windows, recomendamos o uso do PuTTY, que pode ser baixado do https://www.chiark.greenend.org.uk/~sgtatham/putty/download.html.
Para obter mais informações sobre como usar o PuTTY, consulte Usar SSH com Hadoop baseado em Linux no HDInsight do Windows.
Uma vez conectado, inicie a CLI do Hive usando o seguinte comando:
hive
Usando a CLI, insira as seguintes instruções para criar uma nova tabela chamada vehicles usando os dados de exemplo no Data Lake Storage Gen1:
DROP TABLE vehicles; CREATE EXTERNAL TABLE vehicles (str string) LOCATION 'adl://<mydatalakestoragegen1>.azuredatalakestore.net:443/'; SELECT * FROM vehicles LIMIT 10;
Deverá ver um resultado semelhante ao seguinte:
1,1,2014-09-14 00:00:03,46.81006,-92.08174,51,S,1 1,2,2014-09-14 00:00:06,46.81006,-92.08174,13,NE,1 1,3,2014-09-14 00:00:09,46.81006,-92.08174,48,NE,1 1,4,2014-09-14 00:00:12,46.81006,-92.08174,30,W,1 1,5,2014-09-14 00:00:15,46.81006,-92.08174,47,S,1 1,6,2014-09-14 00:00:18,46.81006,-92.08174,9,S,1 1,7,2014-09-14 00:00:21,46.81006,-92.08174,53,N,1 1,8,2014-09-14 00:00:24,46.81006,-92.08174,63,SW,1 1,9,2014-09-14 00:00:27,46.81006,-92.08174,4,NE,1 1,10,2014-09-14 00:00:30,46.81006,-92.08174,31,N,1
Acessar o Data Lake Storage Gen1 usando comandos HDFS
Depois de configurar o cluster HDInsight para usar o Data Lake Storage Gen1, você pode usar os comandos do shell do HDFS para acessar o armazenamento.
Nesta seção, você SSH em um cluster Linux HDInsight e executa os comandos HDFS. Se você estiver usando um cliente Windows, recomendamos o uso do PuTTY, que pode ser baixado do https://www.chiark.greenend.org.uk/~sgtatham/putty/download.html.
Para obter mais informações sobre como usar o PuTTY, consulte Usar SSH com Hadoop baseado em Linux no HDInsight do Windows.
Uma vez conectado, use o seguinte comando do sistema de arquivos HDFS para listar os arquivos na conta de armazenamento com o Data Lake Storage Gen1.
hdfs dfs -ls adl://<storage account with Data Lake Storage Gen1 name>.azuredatalakestore.net:443/
Isso deve listar o arquivo que você carregou anteriormente para o Data Lake Storage Gen1.
15/09/17 21:41:15 INFO web.CaboWebHdfsFileSystem: Replacing original urlConnectionFactory with org.apache.hadoop.hdfs.web.URLConnectionFactory@21a728d6
Found 1 items
-rwxrwxrwx 0 NotSupportYet NotSupportYet 671388 2015-09-16 22:16 adl://mydatalakestoragegen1.azuredatalakestore.net:443/mynewfolder
Você também pode usar o hdfs dfs -put
comando para carregar alguns arquivos para o Data Lake Storage Gen1 e, em seguida, usar hdfs dfs -ls
para verificar se os arquivos foram carregados com êxito.