Executar um Databricks Notebook com a Atividade do Databricks Notebook no Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Neste tutorial, utiliza o portal do Azure para criar um pipeline do Azure Data Factory que executa um Databricks Notebook no cluster de tarefas do Databricks. Também transmite os parâmetros do Azure Data Factory ao Databricks Notebook durante a execução.

Vai executar os seguintes passos neste tutorial:

Criar uma fábrica de dados.
Crie um pipeline que utilize a atividade do Databricks Notebook.
Acionar uma execução de pipeline.
Monitorizar a execução do pipeline.

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Nota

Para obter detalhes completos sobre como usar a Atividade do Bloco de Anotações do Databricks, incluindo o uso de bibliotecas e a passagem de parâmetros de entrada e saída, consulte a documentação da Atividade do Bloco de Anotações do Databricks.

Pré-requisitos

Área de trabalho do Azure Databricks. Crie uma área de trabalho do Databricks ou utilize uma já existente. Cria um caderno Python na tua área de trabalho do Azure Databricks. Em seguida, execute o Notebook e transmita os parâmetros ao mesmo através do Azure Data Factory.

Criar uma fábrica de dados

Abra o browser Microsoft Edge ou Google Chrome. Atualmente, a IU do Data Factory é suportada apenas nos browsers Microsoft Edge e Google Chrome.
Selecione Criar um recurso no menu do portal do Azure e, em seguida, selecione Analytics>Data Factory :
Na página Criar Data Factory, no separador Básico, selecione a sua Assinatura do Azure onde deseja criar a Data Factory.
Em Grupo de Recursos, efetue um destes passos:
1. Selecione um grupo de recursos existente na lista suspensa.
2. Selecione Criar novo e insira o nome de um novo grupo de recursos.
Para saber mais sobre os grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.
Em Região, selecione o local para a fábrica de dados.

A lista mostra apenas as localizações suportadas pelo Data Factory e onde serão armazenados os seus metadados do Azure Data Factory. Os armazenamentos de dados associados (como o Armazenamento do Azure e o Banco de Dados SQL do Azure) e os cálculos (como o Azure HDInsight) que o Data Factory usa podem ser executados em outras regiões.
Em Nome, insira ADFTutorialDataFactory.

O nome do Azure Data Factory deve ser globalmente exclusivo. Se você vir o seguinte erro, altere o nome do data factory (por exemplo, use <yourname>ADFTutorialDataFactory). Para regras de nomenclatura de artefactos do Data Factory, veja o artigo Data Factory – Regras de Nomenclatura.
Em Versão, selecione V2.
Selecione Seguinte: Configuração do Git e, em seguida, selecione a caixa de seleção Configurar Git mais tarde.
Selecione Rever + criar e selecione Criar depois de a validação ser concluída.
Após a conclusão da criação, selecione Ir para o recurso para navegar até a página Data Factory . Selecione o bloco Abrir o Azure Data Factory Studio para iniciar o aplicativo de interface do usuário (UI) do Azure Data Factory em uma guia separada do navegador.

Criar serviços ligados

Nesta secção, vai criar um serviço ligado do Databricks. Este serviço ligado contém as informações de ligação ao cluster do Databricks:

Criar um serviço vinculado do Azure Databricks

Na página inicial, mude para a guia Gerenciar no painel esquerdo.
Selecione Serviços vinculados em Conexões e, em seguida, selecione + Novo.
Na janela Novo serviço vinculado, selecione Compute>Azure Databricks e, em seguida, selecione Continuar.
Na janela Novo serviço vinculado, conclua as seguintes etapas:
1. Em Nome, introduza AzureDatabricks_LinkedService.
2. Selecione o espaço de trabalho Databricks apropriado no qual você executará seu bloco de anotações.
3. Em Selecionar cluster, selecione Novo cluster de trabalho.
4. Para a URL do espaço de trabalho Databricks, as informações devem ser preenchidas automaticamente.
5. Para Tipo de autenticação, se você selecionar Token de acesso, gere-o do local de trabalho do Azure Databricks. Pode encontrar os passos aqui. Para Identidade de serviço gerenciado e Identidade gerenciada atribuída pelo usuário, conceda a função de Colaborador a ambas as identidades no menu Controle de acesso do recurso Azure Databricks.
6. Em Versão do cluster, selecione a versão que deseja usar.
7. Para Tipo de nó de cluster, selecione Standard_D3_v2 na categoria Uso geral (HDD) para este tutorial.
8. Em Trabalhadores, introduza 2.
9. Selecione Criar.

Criar uma canalização

Selecione o botão + (mais) e, em seguida, selecione Pipeline no menu.
Crie um parâmetro para ser utilizado no Pipeline. Mais tarde, transmita este parâmetro à Atividade do Databricks Notebook. No pipeline vazio, selecione o separador Parâmetros, selecione + Novo e nomeie-o como 'nome'.
Na caixa de ferramentas Atividades, expanda Databricks. Arraste a atividade Notebook da caixa de ferramentas Atividades para a superfície de desenho do pipeline.
Nas propriedades da atividade DatabricksBloco de Anotações na janela na parte inferior, conclua as seguintes etapas:
1. Mude para o separador Azure Databricks.
2. Selecione AzureDatabricks_LinkedService (que você criou no procedimento anterior).
3. Mudar para o separador Definições.
4. Para navegar, selecione um caminho de Notebook do Databricks. Vamos criar um Notebook e especificar o caminho aqui. O Caminho do Notebook é obtido ao seguir os próximos passos.
  1. Inicie seu espaço de trabalho do Azure Databricks.
  2. Crie uma Nova Pasta na Área de Trabalho e denomine-a adftutorial.
  3. Crie um novo bloco de anotações, vamos chamá-lo de mynotebook. Clique com o botão direito do mouse na pasta adftutorial e selecione Criar.
  4. No Notebook recém-criado denominado "mynotebook", adicione o seguinte código:
```
# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
y = dbutils.widgets.get("input")
print ("Param -\'input':")
print (y)
```
  5. O caminho do bloco de anotações, neste caso, é /adftutorial/mynotebook.
Volte para a ferramenta de criação da IU do Data Factory. Navegue até a guia Configurações na atividade Notebook1.

a) Adicione um parâmetro à atividade do Bloco de Anotações. Vai utilizar o mesmo parâmetro que adicionou anteriormente ao Pipeline.

b) Nomeie o parâmetro como entrada e forneça o valor como expressão @pipeline().parameters.name.
Para validar o pipeline, selecione o botão Validar na barra de ferramentas. Para fechar a janela de validação, selecione o botão Fechar .
Selecione Publicar tudo. A interface de utilizador do Data Factory publica as entidades (serviços vinculados e pipeline) no serviço Azure Data Factory.

Acionar uma execução de pipeline

Selecione Adicionar gatilho na barra de ferramentas e, em seguida, selecione Gatilho agora.

Captura de ecrã a mostrar como selecionar o comando 'Acionar agora'.

A caixa de diálogo de execução do pipeline solicita o parâmetro nome. Utilize /path/filename como parâmetro aqui. Selecione OK.

Captura de tela mostrando como fornecer um valor para os parâmetros de nome.

Monitorizar a execução do pipeline.

Alterne para a guia Monitor . Confirme se você vê um pipeline em execução. A criação de um cluster de trabalhos do Databricks, onde o Notebook vai ser executado, demora aproximadamente entre 5 a 8 minutos.
Selecione Atualizar periodicamente para verificar o estado da execução do pipeline.
Para ver as execuções de atividade associadas à execução do pipeline, selecione o link pipeline1 na coluna Nome do Pipeline.
Na página Execuções de atividade, selecione Saída na coluna Nome da atividade para exibir a saída de cada atividade e você pode encontrar o link para logs do Databricks no painel Saída para obter logs do Spark mais detalhados.
Você pode voltar para a visualização das execuções de pipeline ao selecionar o link Todas as execuções de pipeline no menu de navegação no topo.

Verificar a saída

Pode aceder ao espaço de trabalho do Azure Databricks, ir para Execuções de Tarefas e ver o estado da Tarefa como execução pendente, em execução ou terminada.

Você pode selecionar o nome do trabalho e navegar para ver mais detalhes. Numa execução bem-sucedida, pode validar os parâmetros transmitidos e o resultado do Python Notebook.

Resumo

O pipeline deste exemplo aciona uma atividade do Databricks Notebook e transmite um parâmetro a ela. Aprendeu a:

Criar uma fábrica de dados.
Criar um pipeline que faça uso de uma atividade de Databricks Notebook.
Acionar uma execução de pipeline.
Monitorizar a execução do pipeline.

Feedback

Esta página foi útil?

Last updated on 2025-04-18