Transformar dados na Rede Virtual do Azure usando a atividade do Hive no Azure Data Factory usando o portal do Azure

Artigo
10/20/2023

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Neste tutorial, vai utilizar o portal do Azure para criar um pipeline do Data Factory que transforma os dados com a Atividade do Hive num cluster HDInsight que se encontra numa Rede Virtual do Azure (VNet). Vai executar os seguintes passos neste tutorial:

Criar uma fábrica de dados.
Criar um integration runtime autoalojado
Criar os serviços ligados Armazenamento do Azure e Azure HDInsight
Criar um pipeline com a atividade Hive.
Acionar uma execução de pipeline.
Monitorizar a execução do pipeline.
Verificar a saída

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

Nota

Recomendamos que utilize o módulo Azure Az do PowerShell para interagir com o Azure. Para começar, consulte Instalar o Azure PowerShell. Para saber como migrar para o módulo do Az PowerShell, veja Migrar o Azure PowerShell do AzureRM para o Az.

Conta do Armazenamento do Azure. Tem de criar um script do Hive e carregá-lo para o armazenamento do Azure. A saída do script do Hive é armazenada nesta conta de armazenamento. Neste exemplo, o cluster HDInsight utiliza esta conta de Armazenamento do Azure como armazenamento primário.
Rede virtual do Azure. Se não tiver uma rede virtual do Azure, crie-a seguindo estas instruções. Neste exemplo, o HDInsight está numa Rede Virtual do Azure. Eis um exemplo de configuração da Rede Virtual do Azure.
Cluster HDInsight. Crie um cluster HDInsight e associe-o à rede virtual que criou no passo anterior, seguindo este artigo: Extend Azure HDInsight using an Azure Virtual Network (Expandir o Azure HDInsight com uma Rede Virtual do Azure). Eis um exemplo de configuração do HDInsight numa rede virtual.
Azure PowerShell. Siga as instruções em How to install and configure Azure PowerShell (Como instalar e configurar o Azure PowerShell).
Uma máquina virtual. Crie uma máquina virtual do Azure e associe-a à mesma rede virtual que contém o cluster HDInsight. Para obter mais detalhes, veja Como criar máquinas virtuais.

Carregar o script do Hive para uma conta de Armazenamento de Blobs

Crie um ficheiro SQL do Hive com o nome hivescript.hql com o seguinte conteúdo:

DROP TABLE IF EXISTS HiveSampleOut; 
CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
STORED AS TEXTFILE LOCATION '${hiveconf:Output}';

INSERT OVERWRITE TABLE HiveSampleOut
Select 
    clientid,
    market,
    devicemodel,
    state
FROM hivesampletable

No Armazenamento de Blobs do Azure, crie um contentor com o nome adftutorial, caso ainda não exista.
Crie uma pasta com o nome hiverscripts.
Carregue o ficheiro hivescript.hql para a sub-pasta hivescripts.

Criar uma fábrica de dados

Se você ainda não criou sua fábrica de dados, siga as etapas em Guia de início rápido: criar uma fábrica de dados usando o portal do Azure e o Azure Data Factory Studio para criar uma. Depois de criá-lo, navegue até o data factory no portal do Azure.
Selecione Abrir no bloco Abrir o Azure Data Factory Studio para iniciar o aplicativo Integração de Dados em uma guia separada.

Criar um integration runtime autoalojado

Uma vez que o cluster do Hadoop está dentro de uma rede virtual, tem de instalar um runtime de integração (IR) autoalojado nessa rede virtual. Nesta secção, vai criar uma VM nova, associá-la à mesma rede virtual e instalar o IR autoalojado nesta. O IR autoalojado permite ao serviço Data Factory enviar pedidos de processamento para um serviço de computação, como o HDInsight, dentro de uma rede virtual. Também lhe permite mover dados de e para os arquivos de dados que estejam dentro de uma rede virtual do Azure. Utilize um IR autoalojado quando o arquivo de dados ou a computação também está num ambiente no local.

Na IU do Azure Data Factory, clique em Ligações, na parte inferior da janela, mude para o separador Runtimes de Integração e clique no botão + Novo, na barra de ferramentas.
Na janela Configuração do Runtime de Integração, selecione a opção Realizar movimento de dados e enviar atividades para computações externas e clique em Seguinte.
Selecione Rede Privada e clique em Seguinte.
Introduza MySelfHostedIR em Nome e clique em Seguinte.
Copie a chave de autenticação do runtime de integração, clicando no botão para copiar, e guarde-a. Mantenha a janela aberta. Esta chave vai ser utilizada para registar o IR instalado numa máquina virtual.

Instalar o IR numa máquina virtual

Na VM do Azure, transfira o integration runtime autoalojado. Utilize a chave de Autenticação que obteve no passo anterior para registar manualmente o runtime de integração autoalojado.
Quando o integration runtime autoalojado for registado com êxito, verá a mensagem seguinte.
Clique em Iniciar Configuration Manager. Quando o nó for ligado ao serviço cloud, verá a página seguinte:

IR autoalojado na IU do Azure Data Factory

Na IU do Azure Data Factory, deverá ver o nome da VM autoalojada e o respetivo estado.
Clique em Concluir para fechar a janela Configuração do Runtime de Integração. Verá o IR autoalojado na lista de runtimes de integração.

Criar serviços ligados

Nesta secção, vai criar e implementar dois Serviços Ligados:

Um Serviço Ligado do Armazenamento do Azure que liga uma conta de Armazenamento do Azure à fábrica de dados. Este armazenamento é o armazenamento primário utilizado pelo cluster HDInsight. Neste caso, vai utilizar esta conta de Armazenamento do Azure para guardar o script do Hive e a saída do script.
Um Serviço Ligado do HDInsight. O Azure Data Factory envia o script do Hive a este cluster HDInsight para execução.

Criar o serviço ligado do Storage do Azure

Mude para o separador Serviços Ligados e clique em Novo.
Na janela Novo Serviço Ligado, selecione Armazenamento de Blobs do Azure e clique em Continuar.
Na janela Novo Serviço Ligado, siga os passos abaixo:
1. Introduza AzureStorageLinkedService em Nome.
2. Selecione MySelfHostedIR em Ligar através do runtime de integração.
3. Selecione a sua conta de Armazenamento do Azure em Nome da conta de armazenamento.
4. Para testar a ligação à conta de armazenamento, clique em Testar ligação.
5. Clique em Guardar.

Criar serviço ligado do HDInsight

Clique novamente em novo para criar outro serviço ligado.
Mude para o separador Computação, selecione Azure HDInsight e clique em Continuar.
Na janela Novo Serviço Ligado, siga os passos abaixo:
1. Introduza AzureHDInsightLinkedService em Nome.
2. Selecione Trazer o seu próprio HDInsight.
3. Selecione o cluster do HDInsight em Cluster do Hdi.
4. Introduza o nome de utilizador do cluster do HDInsight.
5. Introduza a palavra-passe do utilizador.

Este artigo pressupõe que tem acesso ao cluster através da Internet. Por exemplo, que pode ligar ao cluster em https://clustername.azurehdinsight.net. Este endereço utiliza o gateway público, que não está disponível se tiver utilizado grupos de segurança de rede (NSGs) ou rotas definidas pelo utilizador (UDRs) para restringir o acesso a partir da Internet. Para que o Data Factory consiga submeter tarefas ao cluster HDInsight na Rede Virtual do Azure, precisa de configurar a Rede Virtual do Azure de forma a que o URL possa ser resolvido para o endereço IP privado do gateway utilizado pelo HDInsight.

A partir do portal do Azure, abra a Rede Virtual onde o HDInsight se encontra. Abra a interface de rede com o nome começado por nic-gateway-0. Tome nota do endereço IP privado. Por exemplo, 10.6.0.15.
Se a sua Rede Virtual do Azure tiver um servidor DNS, atualize o registo DNS de forma a que o URL do cluster HDInsight https://<clustername>.azurehdinsight.net possa ser resolvido para 10.6.0.15. Se não tiver um servidor DNS na sua Rede Virtual do Azure, pode solucionar temporariamente este problema ao editar o ficheiro de anfitriões (C:\Windows\System32\drivers\etc) de todas as VMs registadas como nós de runtime de integração autoalojado, adicionando uma entrada semelhante a:

10.6.0.15 myHDIClusterName.azurehdinsight.net

Criar um pipeline

Neste passo, vai criar um novo pipeline com uma atividade do Hive. A atividade executa o script do Hive para devolver dados de uma tabela de exemplo e guardá-los no caminho que definiu.

Tenha em conta os seguintes pontos:

scriptPath aponta para o caminho do script do Hive na Conta de Armazenamento do Azure que utilizou para MyStorageLinkedService. O caminho é sensível a maiúsculas e minúsculas.
Output é um argumento utilizado no script do Hive. Utilize o formato wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/ para apontá-lo para uma pasta existente no seu Armazenamento do Azure. O caminho é sensível a maiúsculas e minúsculas.

Na IU do Data Factory, clique em + (mais), no painel do lado esquerdo, e clique em Pipeline.
Na caixa de ferramentas Atividades, expanda HDInsight e arraste e largue a atividade Hive na superfície de desenho do pipeline.
Na janela de propriedades, mude para o separador Cluster do HDI e selecione AzureHDInsightLinkedService em Serviço Ligado do HDInsight.
Mude para o separador Scripts e siga os passos abaixo:
1. Selecione AzureStorageLinkedService em Serviço Ligado de Script.
2. Em Caminho do Ficheiro, clique em Procurar no Armazenamento.
3. Na janela Escolher um ficheiro ou pasta, navegue para a pasta hivescripts do contentor adftutorial, selecione hivescript.hql e clique em Concluir.
4. Confirme que vê adftutorial/hivescripts/hivescript.hql em Caminho do Ficheiro.
5. No separador Script, expanda a secção Avançadas.
6. Clique em Preencher automaticamente a partir do script em Parâmetros.
7. Introduza o valor para o parâmetro Saída no formato wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. Por exemplo: wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/.
Para publicar os artefactos no Data Factory, clique em Publicar.

Acionar uma execução de pipeline

Em primeiro lugar, clique no botão Validar, na barra de ferramentas, para validar o pipeline. Feche a janela Saída de Validação de Pipeline clicando na seta para a direita (>>).
Para acionar uma execução de pipeline, clique em Acionar, na barra de ferramentas, e clique em Acionar Agora.

Monitorizar a execução do pipeline.

Mude para o separador Monitorizar, no lado esquerdo. Verá uma execução de pipeline na lista Execuções de Pipeline.
Para atualizar a lista, clique em Atualizar.
Para ver as execuções de atividades associadas às execução de pipeline, clique em Ver Execuções de Atividades, na coluna Ação. As outras ligações de ação servem para parar/voltar a executar o pipeline.
Vai ver apenas uma execução de atividade, porque só existe uma atividade no pipeline do tipo HDInsightHive. Para regressar à vista anterior, clique na ligação Pipelines, na parte superior.
Confirme que vê um ficheiro de saída em outputfolder do contentor adftutorial.

Neste tutorial, executou os passos seguintes:

Criar uma fábrica de dados.
Criar um integration runtime autoalojado
Criar os serviços ligados Armazenamento do Azure e Azure HDInsight
Criar um pipeline com a atividade Hive.
Acionar uma execução de pipeline.
Monitorizar a execução do pipeline.
Verificar a saída

Avance para o tutorial seguinte para saber como transformar dados através de um cluster do Spark no Azure:

Ramificação e encadeamento de um fluxo de controlo no Data Factory

Partilhar via

Transformar dados na Rede Virtual do Azure usando a atividade do Hive no Azure Data Factory usando o portal do Azure

Pré-requisitos

Carregar o script do Hive para uma conta de Armazenamento de Blobs

Criar uma fábrica de dados

Criar um integration runtime autoalojado

Instalar o IR numa máquina virtual

IR autoalojado na IU do Azure Data Factory

Criar serviços ligados

Criar o serviço ligado do Storage do Azure

Criar serviço ligado do HDInsight

Criar um pipeline

Acionar uma execução de pipeline

Monitorizar a execução do pipeline.

Comentários

Comentários

Recursos adicionais

Partilhar via

Transformar dados na Rede Virtual do Azure usando a atividade do Hive no Azure Data Factory usando o portal do Azure

Pré-requisitos

Carregar o script do Hive para uma conta de Armazenamento de Blobs

Criar uma fábrica de dados

Criar um integration runtime autoalojado

Instalar o IR numa máquina virtual

IR autoalojado na IU do Azure Data Factory

Criar serviços ligados

Criar o serviço ligado do Storage do Azure

Criar serviço ligado do HDInsight

Criar um pipeline

Acionar uma execução de pipeline

Monitorizar a execução do pipeline.

Conteúdos relacionados

Comentários

Comentários

Recursos adicionais