Exercício - Usar transformações de computação no Azure Data Factory

Concluído

Em alguns casos, a transformação sem código em escala pode não atender às suas necessidades. Você pode usar o Azure Data Factory para ingerir dados brutos coletados de diferentes fontes e trabalhar com uma variedade de recursos de computação, como Azure Databricks, Azure HDInsight ou outros recursos de computação para reestruturá-los de acordo com suas necessidades.

ADF e Azure Databricks

Como exemplo, a integração do Azure Databricks com o ADF permite adicionar blocos de anotações Databricks dentro de um pipeline do ADF para aproveitar os recursos analíticos e de transformação de dados do Databricks. Você pode adicionar um bloco de anotações ao seu fluxo de trabalho de dados para estruturar e transformar dados brutos carregados em ADF de diferentes fontes. Depois que os dados forem transformados usando o Databricks, você poderá carregá-los em qualquer fonte de data warehouse.

A ingestão e transformação de dados usando os recursos coletivos do ADF e do Azure Databricks envolve essencialmente as seguintes etapas:

  1. Criar conta de armazenamento do Azure - A primeira etapa é criar uma conta de armazenamento do Azure para armazenar seus dados ingeridos e transformados.

  2. Criar um Azure Data Factory - Depois de configurar sua conta de armazenamento, você precisa criar seu Azure Data Factory usando o portal do Azure.

  3. Criar pipeline de fluxo de trabalho de dados - Depois que o armazenamento e o ADF estiverem em funcionamento, começas por criar um pipeline, onde a primeira etapa é copiar dados da fonte usando a atividade Copiar do ADF. A Atividade de Cópia permite copiar dados de diferentes fontes locais e na nuvem.

  4. Adicionar bloco de anotações Databricks ao pipeline - Depois que os dados forem copiados para o ADF, você adicionará o bloco de anotações Databricks ao pipeline, após a atividade de cópia. Este bloco de notas pode conter sintaxe e código para transformar e limpar dados brutos, conforme necessário.

  5. Executar análise de dados - Agora que seus dados estão limpos e estruturados no formato necessário, você pode usar os blocos de anotações Databricks para treiná-los ou analisá-los ainda mais para produzir os resultados necessários.

Você aprendeu o que é o Azure Data Factory e como sua integração com o Azure Databricks ajuda você a carregar e transformar seus dados. Agora vamos criar um fluxo de trabalho de dados de exemplo de ponta a ponta.

Integrando blocos de anotações do Azure Databricks com o pipeline do Azure Data Factory

Há várias tarefas que precisam ser executadas para integrar os blocos de anotações do Azure Databricks com o pipeline do Azure Data Factory da seguinte maneira:

  1. Gere um token de acesso Databricks.

  2. Gerar um Bloco de Anotações Databricks

  3. Criar serviços vinculados

  4. Crie uma Pipeline que use a Atividade de Notebook do Databricks.

  5. Acione uma execução de pipeline.

    Observação

    As etapas a seguir pressupõem que já há um cluster do Azure Databricks já provisionado

Tarefa 1: Gerar um token de acesso Databricks.

  1. No portal do Azure, clique em Grupos de recursos e, em seguida, clique em awrgstudxx e, em seguida, clique em awdbwsstudxx onde xx são as iniciais do seu nome.

  2. Clique em Iniciar espaço de trabalho

  3. Clique nas Configurações do usuário no canto inferior esquerdo do seu espaço de trabalho Databricks.

  4. Clique em Configurações do usuário.

  5. Vá para a guia Tokens de acesso e clique no botão Gerar novo token .

  6. Insira uma descrição no comentário "Para integração do ADF" e defina o período de vida de 10 dias e clique em Gerar

  7. Copie o token gerado e armazene no bloco de notas e, em seguida, clique em Concluído.

Tarefa 2: Gerar um Bloco de Anotações Databricks

  1. À esquerda da tela, clique no ícone Espaço de trabalho, depois clique na seta ao lado da palavra Espaço de trabalho, clique em Criar e, em seguida, clique em Pasta. Nomeie a pasta adftutorial e clique em Criar pasta. A pasta adftutorial está visível na Área de Trabalho.

  2. Clique na seta suspensa ao lado de adftutorial, depois clique em Criar, e em seguida, em Notebook.

  3. Na caixa de diálogo Criar Bloco de Anotações, digite o nome de mynotebook, verifique se a linguagem indica Python e clique em Criar. O bloco de notas com o título de mynotebook aparece/

  4. No Notebook recém-criado denominado "mynotebook", adicione o seguinte código:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Observação

    que o caminho do caderno é /adftutorial/mynotebook

Tarefa 3: Criar Serviços Vinculados

  1. No Microsoft Edge, clique na guia do portal No portal do Azure, retorne ao Azure Data Factory e clique em Open Azure Data Factory Studio.

  2. No lado esquerdo do ecrã, clique no ícone Gerir .

  3. Em Conexões, clique em Serviços Vinculados.

  4. No Serviço Vinculado, na parte superior da tela, clique em + Novo,

  5. Clique na guia Computação , clique em Azure Databricks e, em seguida, clique em Continuar.

  6. Na tela Novo Serviço Vinculado (Azure Databricks), preencha os seguintes detalhes e clique em Concluir

    • Nome: xx_dbls, onde xx são as suas iniciais
    • Databricks Workspace: awdbwsstudxx, onde xx são suas iniciais
    • Selecionar cluster: utilizar existente
    • Domínio/ Região: deve ser preenchido
    • Token de acesso: copie o token de acesso do Bloco de Notas e cole neste campo
    • Escolha a partir do cluster existente: awdbclstudxx, onde xx são as suas iniciais
    • Deixe outras opções para suas configurações padrão

    Observação

    Quando você clica em concluir, você é retornado para a tela Autor & Monitor onde o xx_dbls foi criado, com os outros serviços vinculados criados no exercício anterior.

Tarefa 4: Criar um pipeline que use a Atividade do Bloco de Anotações Databricks.

  1. No lado esquerdo da tela, clique no ícone Autor e, em seguida, clique em Pipeline. Isso abre uma guia com um designer de pipeline.

  2. Na parte inferior do designer de pipeline, clique na guia parâmetros e, em seguida, clique em + Novo

  3. Criar um parâmetro com o Nome do nome, com um tipo de cadeia de caracteres

  4. No menu Atividades , expanda Databricks.

  5. Clique e arraste o Bloco de Anotações para a tela.

  6. Nas propriedades da janela Notebook1 na parte inferior, conclua as seguintes etapas:

    • Mude para o separador Azure Databricks.

    • Selecione xx_dbls que você criou no procedimento anterior.

    • Alterne para o separador Configurações e coloque /adftutorial/mynotebook no caminho do Notebook.

    • Expanda Parâmetros básicos e, em seguida, clique em + Novo

    • Crie um parâmetro com o nome de input, com um valor de @pipeline().parameters.name

  7. No Bloco de Anotações1, clique em Validar, ao lado do botão Salvar como modelo. ** Uma janela aparece à direita do ecrã que diz "O seu pipeline foi validado." Não foram encontrados erros." Clique no >> para fechar a janela.

  8. Clique em Publicar tudo para publicar o serviço vinculado e o pipeline.

    Observação

    Será exibida uma mensagem informando que a implantação foi bem-sucedida.

Tarefa 5: Acionar uma execução de pipeline

  1. No Notebook1, clique em Adicionar gatilho e clique em Acionar Agora ao lado do botão Depurar.

  2. A caixa de diálogo Pipeline Run solicita o parâmetro name. Utilize /path/filename como parâmetro aqui. Clique em Concluir. Um círculo vermelho aparece acima da atividade Notebook1 na tela.

Tarefa 6: Monitorizar o pipeline

  1. À esquerda do ecrã, clique no separador Monitor . Confirme se você vê um pipeline em execução. A criação de um cluster de trabalhos do Databricks, onde o Notebook vai ser executado, demora aproximadamente entre 5 a 8 minutos.

  2. Selecione Atualizar periodicamente para verificar o estado da execução do pipeline.

  3. Para ver as execuções de atividades associadas à execução do pipeline, selecione Ver Execuções de Atividades, na coluna Ações.

Tarefa 7: Verificar a saída

  1. No Microsoft Edge, clique na guia mynotebook - Databricks

  2. No espaço de trabalho do Azure Databricks , clique em Clusters e você pode ver o status do trabalho como execução pendente, em execução ou encerrado.

  3. Clique no cluster awdbclstudxx e, em seguida, clique no Registo de Eventos para visualizar as atividades.

    Observação

    Você verá um Tipo de Evento de Iniciando com a hora em que disparou a execução do pipeline.