Exercício: usar transformações de computação dentro do Azure Data Factory

Concluído

Em alguns casos, a transformação livre de código em escala pode não atender aos seus requisitos. Você pode usar o Azure Data Factory para ingerir dados brutos coletados de diferentes fontes e trabalhar com uma variedade de recursos de computação, como o Azure Databricks, o Azure HDInsight ou outros recursos de computação para reestruturá-los de acordo com suas necessidades.

ADF e Azure Databricks

Por exemplo, a integração do Azure Databricks com o ADF permite que você adicione notebooks do Databricks em um pipeline do ADF para aproveitar os recursos de transformação de dados e analíticos do Databricks. Você pode adicionar um notebook em seu fluxo de trabalho de dados para estruturar e transformar dados brutos carregados no ADF de diferentes fontes. Depois que os dados forem transformados usando o Databricks, você poderá carregá-los em qualquer fonte de data warehouse.

A ingestão e a transformação de dados usando as funcionalidades coletivas do ADF e do Azure Databricks envolvem essencialmente as seguintes etapas:

  1. Criar uma conta de armazenamento do Azure – a primeira etapa é criar uma conta de armazenamento do Azure para armazenar seus dados ingeridos e transformados.

  2. Criar um Azure Data Factory – depois de configurar sua conta de armazenamento, você precisará criar seu Azure Data Factory usando o portal do Azure.

  3. Criar pipeline de fluxo de trabalho de dados – depois que o armazenamento e o ADF estiverem em execução, você começará criando um pipeline, onde a primeira etapa é copiar dados de sua fonte usando a atividade Copy do ADF. A Atividade de Cópia permite copiar dados de diferentes fontes locais e de nuvem.

  4. Adicionar o notebook do Databricks ao pipeline – depois que seus dados forem copiados para o ADF, adicione seu notebook do Databricks ao pipeline após a atividade de cópia. Este notebook pode conter sintaxe e código para transformar e limpar dados brutos conforme necessário.

  5. Executar a análise nos dados – agora que seus dados estão limpos e estruturados no formato necessário, você pode usar notebooks do Databricks para treiná-los ou analisá-los para gerar os resultados necessários.

Você aprendeu o que é o Azure Data Factory e como sua integração com o Azure Databricks ajuda você a carregar e transformar seus dados. Agora vamos criar um fluxo de trabalho de dados de exemplo de ponta a ponta.

Como integrar notebooks do Azure Databricks ao pipeline do Azure Data Factory

Há várias tarefas que precisam ser executadas para integrar notebooks do Azure Databricks ao pipeline do Azure Data Factory da seguinte maneira:

  1. Gerar um token de acesso do Databricks.

  2. Gerar um Bloco de Anotações do Databricks

  3. Criar serviços vinculados

  4. Criar um pipeline que usa a atividade Databricks Notebook.

  5. Disparar uma execução de pipeline.

    Observação

    As etapas a seguir pressupõem que já exista um cluster do Azure Databricks já provisionado

Tarefa 1: gerar um token de acesso do Databricks.

  1. No portal do Azure, clique em Grupos de recursos e clique em awrgstudxx e clique em awdbwsstudxx onde xx são as iniciais de seu nome.

  2. Clique em Iniciar Workspace

  3. Clique nas Configurações do usuário no canto inferior esquerdo do workspace do Databricks.

  4. Clique em Configurações do Usuário.

  5. Vá para a guia Tokens de Acesso e clique no botão Gerar Novo Token .

  6. Insira uma descrição no comentário "Para integração do ADF" e defina o período de tempo de vida de 10 dias e clique em Gerar

  7. Copie o token gerado e armazene no Bloco de Notas, em seguida, clique em Concluído.

Tarefa 2: Gerar um Bloco de Anotações do Databricks

  1. À esquerda da tela, clique no ícone do Workspace , clique na seta ao lado da palavra Workspace e clique em Criar e clique em Pasta. Nomeie a pasta adftutorial e clique em Criar Pasta. A pasta adftutorial aparece no workspace.

  2. Clique na seta suspensa ao lado de adftutorial, em Criar e em Notebook.

  3. Na caixa de diálogo Criar Bloco de Anotações, digite o nome do mynotebook e verifique se o idioma declara Python e clique em Criar. O caderno intitulado "my-notebook" é exibido.

  4. No notebook recém-criado "mynotebook", adicione o seguinte código:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Observação

    que o caminho do notebook é /adftutorial/mynotebook

Tarefa 3: Criar Serviços Vinculados

  1. No Microsoft Edge, clique na guia do portal no portal do Azure e retorne ao Azure Data Factory e clique em Abrir o Azure Data Factory Studio.

  2. No lado esquerdo da tela, clique no ícone Gerenciar .

  3. Em Conexões, clique em Serviços Vinculados.

  4. No Serviço Vinculado, na parte superior da tela, clique em + Novo,

  5. Clique na guia Computação , clique em Azure Databricks e clique em Continuar.

  6. Na tela Novo Serviço Vinculado (Azure Databricks ), preencha os detalhes a seguir e clique em Concluir

    • Nome: xx_dbls, onde xx são suas iniciais
    • Workspace do Databricks: awdbwsstudxx, onde "xx" representa suas iniciais
    • Selecionar cluster: usar existente
    • Domínio/Região: deve ser populado
    • Token de Acesso: copiar o token de acesso do Bloco de Notas e colar nesse campo
    • Escolha entre o cluster existente: awdbclstudxx, onde xx são suas iniciais
    • Deixe outras opções para suas configurações padrão

    Observação

    Ao clicar em concluir, você retornará para a tela Autor & Monitor, na qual o xx_dbls foi criado, com os outros serviços vinculados criados no exercício anterior.

Tarefa 4: Crie um pipeline que use a Atividade de Notebook do Databricks.

  1. No lado esquerdo da tela, clique no ícone Autor e clique em Pipeline. Isso abre uma guia com um designer de pipeline.

  2. Na parte inferior do designer de pipeline, clique na guia parâmetros e clique em + Novo

  3. Crie um parâmetro com o nome de nome e um tipo de cadeia de caracteres

  4. No menu Atividades , expanda o Databricks.

  5. Clique e arraste o Bloco de Anotações para a tela.

  6. Nas propriedades da janela Notebook1 na parte inferior, conclua as seguintes etapas:

    • Alterne para a guia Azure Databricks.

    • Selecione xx_dbls que você criou no procedimento anterior.

    • Alterne para a guia Configurações e coloque /adftutorial/mynotebook no caminho do Notebook.

    • Expanda parâmetros base e clique em + Novo

    • Crie um parâmetro com o Nome de input, com um valor de @pipeline().parameters.name

  7. No Notebook1, clique em Validar, ao lado do botão Salvar como modelo. A janela como aparece à direita da tela que diz "Seu pipeline foi validado. Nenhum erro foi encontrado." Clique na >> janela para fechar.

  8. Clique em Publicar Tudo para publicar o serviço vinculado e o pipeline.

    Observação

    Uma mensagem será exibida para indicar que a implantação foi bem-sucedida.

Tarefa 5: Disparar uma execução de pipeline

  1. No Notebook1, clique em Adicionar gatilho e clique em Disparar Agora ao lado do botão Depurar.

  2. A caixa de diálogo Execução de pipeline solicita o parâmetro de nome. Use /path/filename como o parâmetro aqui. Clique em Concluir. Um círculo vermelho aparece acima da atividade Notebook1 na tela.

Tarefa 6: Monitorar o pipeline

  1. No lado esquerdo da tela, clique na guia Monitorar. Confirme que você vê uma execução de pipeline. Leva aproximadamente de 5 a 8 minutos para criar um cluster de trabalho do Databricks, no qual o notebook é executado.

  2. Selecione Atualizar periodicamente para verificar o status da execução do pipeline.

  3. Para ver as execuções de atividade associadas à execução do pipeline, selecione Exibir Execuções de Atividade na coluna Ações .

Tarefa 7: Verificar a saída

  1. No Microsoft Edge, clique na guia mynotebook – Databricks

  2. No workspace do Azure Databricks , clique em Clusters e você pode ver o status do trabalho como execução pendente, em execução ou encerrada.

  3. Clique no cluster awdbclstudxx e clique no Log de Eventos para exibir as atividades.

    Observação

    Você deverá ver um Tipo de Evento de Iniciando com a hora em que você disparou a execução de pipeline.