Implementar fluxos de trabalho de processamento e análise de dados com Trabalhos

Artigo
04/24/2024

Pode usar um trabalho do Azure Databricks para orquestrar seu processamento de dados, aprendizado de máquina ou pipelines de análise de dados na plataforma Databricks. Os Trabalhos do Azure Databricks dão suporte para vários tipos de cargas de trabalho, incluindo notebooks, scripts, pipelines Tabelas Dinâmicas Delta, consultas SQL do Databricks e projetos dbt. Os seguintes artigos orientam você no uso dos recursos e opções de Trabalhos do Azure Databricks para implementar seus pipelines de dados.

Transformar, analisar e visualizar seus dados com um trabalho do Azure Databricks

Pode utilizar um trabalho para criar um pipeline de dados que ingere, transforma, analisa e visualiza dados. O exemplo em Usar o SQL do Databricks em um trabalho do Azure Databricks constrói um pipeline que:

Usa um script Python para buscar dados usando uma API REST.
Usa Tabelas Dinâmicas Delta para ingerir e transformar os dados buscados e salvar os dados transformados no Delta Lake.
Usa a integração de Trabalhos com SQL do Databricks para analisar os dados transformados e criar grafos para visualizar os resultados.

Usar transformações dbt em um trabalho

Use o tipo de tarefa dbt se estiver fazendo transformação de dados com um projeto dbt core e quiser integrar esse projeto a um trabalho do Azure Databricks, ou criar novas transformações dbt e executar essas transformações em um trabalho. Confira Usar transformações dbt em um trabalho do Azure Databricks.

Usar um pacote Python em um trabalho

Arquivos wheel do Python são uma maneira padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. Pode facilmente criar um trabalho que utiliza o pacote de códigos Python como um arquivo wheel do Python com o tipo de tarefa Python wheel. Consulte Usar um arquivo wheel do Python em um trabalho do Azure Databricks.

Usar o pacote de códigos em um JAR

Bibliotecas e aplicações implementadas em uma linguagem JVM, como Java e Scala, são comumente empacotadas em um arquivo Java (JAR). Trabalhos do Azure Databricks dão suporte para código empacotado em um JAR com o tipo de tarefa JAR. Confira Usar um JAR em um trabalho do Azure Databricks.

Usar notebooks ou códigos Python mantidos em um repositório central

Uma maneira comum de gerenciar controle de versão e colaboração para artefatos de produção é usar um repositório central, como o GitHub. Os trabalhos do Azure Databricks dão suporte para criação e execução de trabalhos usando notebooks ou códigos Python importados de um repositório, incluindo o GitHub ou pastas Git do Databricks. Confira Usar código-fonte controlado por versão em um trabalho do Azure Databricks.

Orquestrar seus trabalhos com o Apache Airflow

O Databricks recomenda usar Trabalhos do Azure Databricks para orquestrar seus fluxos de trabalho. No entanto, Apache Airflow é comumente usado como um sistema de orquestração de fluxo de trabalho e fornece suporte nativo para os Trabalhos do Azure Databricks. Enquanto Trabalhos do Azure Databricks fornece uma interface visual para criar seus fluxos de trabalho, o Airflow faz o uso de arquivos Python para definir e implantar seus pipelines de dados. Para um exemplo de criação e execução de um trabalho com o Airflow, confira Orquestrar trabalhos do Azure Databricks com Apache Airflow.

Executar um trabalho usando uma entidade de serviço

Pode executar seus trabalhos como uma conta de serviço usando um aplicativo do Microsoft Entra ID (anteriormente Azure Active Directory) e entidade de serviço. Executar um trabalho como uma conta de serviço em vez de um usuário individual permite controlar o acesso ao trabalho, garantir que o trabalho tenha permissões necessárias e evitar problemas se um proprietário de trabalho for removido de um workspace. Para obter um tutorial sobre como criar e usar uma entidade de serviço para executar um trabalho do Azure Databricks, consulte Executar um trabalho com uma entidade de serviço do Microsoft Entra ID.