Compartilhar via


O que é o Gerenciador de orquestração de fluxo de trabalho?

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Observação

O Apache Airflow agora está acessível por meio do Microsoft Fabric. O Microsoft Fabric oferece uma ampla gama de recursos do Apache Airflow por meio de fluxos de trabalho de dados. Recomendamos migrar seus fluxos de trabalho existentes baseados no Gerenciador de orquestração de fluxo de trabalho (Apache Airflow no ADF) para os fluxos de trabalho de dados (Apache Airflow no Microsoft Fabric) para um conjunto mais amplo de recursos. Os recursos do Apache Airflow estarão em disponibilidade geral no primeiro trimestre de 2025 apenas no Microsoft Fabric. Para novos projetos do Apache Airflow, recomendamos usar o Apache Airflow no Microsoft Fabric. Encontre mais detalhes aqui. Novos usuários não poderão criar um gerenciador de orquestração de fluxo de trabalho no ADF, mas usuários existentes com um gerenciador de orquestração de fluxo de trabalho poderão continuar a usá-lo, mas deverão planejar uma migração em breve.

Observação

O gerenciador de orquestração de fluxo de trabalho para Azure Data Factory depende do aplicativo Apache Airflow de código aberto. Encontre a documentação e mais tutoriais do Airflow nas páginas Documentação ou Comunidade do Apache Airflow.

O Azure Data Factory oferece pipelines sem servidor para orquestração de processos de dados, movimentação de dados com mais de 100 conectores gerenciados e transformações visuais com o fluxo de dados de mapeamento.

O serviço gerenciador de orquestração de fluxo de trabalho do Azure Data Factory é uma maneira simples e eficiente de criar e gerenciar ambientes Apache Airflow, permitindo que você execute pipelines de dados em escala com facilidade. O Apache Airflow é uma plataforma de software livre usada para criar, agendar e monitorar fluxos de trabalho de dados complexos de forma programática. Ele permite que você defina um conjunto de tarefas, chamadas de operadores, que podem ser combinadas em DAGs (grafos direcionados acíclico) para representar pipelines de dados. O Airflow permite executar esses DAGs de forma agendada ou em resposta a um evento, monitorar o progresso dos fluxos de trabalho e fornecer visibilidade sobre o estado de cada tarefa. Ele é amplamente usado na engenharia e ciência de dados para orquestrar pipelines de dados e é conhecido por sua flexibilidade, extensibilidade e facilidade de uso.

Captura de tela que mostra a integração de dados.

Quando usar o gerenciador de orquestração de fluxo de trabalho?

O Azure Data Factory oferece pipelines para orquestrar visualmente os processos de dados (criação baseada em interface do usuário). Enquanto gerenciador de orquestração de fluxo de trabalho, oferece DAGs python baseados em Airflow (criação centrada em código python) para definir o processo de orquestração de dados. Se você tiver experiência no Airflow ou estiver usando o Apache Airflow, talvez prefira usar o gerenciador de orquestração de fluxo de trabalho em vez dos pipelines. Caso contrário, se você não quiser escrever/gerenciar DAGs baseados em Python para a orquestração de processos de dados, talvez prefira usar pipelines.

Com o gerenciador de orquestração de fluxo de trabalho, o Azure Data Factory agora oferece recursos de multiorquestração que abrangem requisitos de orquestração OSS visuais, centrados em código.

Recursos

O gerenciador de orquestração de fluxo de trabalho no Azure Data Factory oferece uma variedade de recursos poderosos, incluindo:

  • Implantação rápida e simples - Você pode configurar o Apache Airflow de forma rápida e fácil selecionando uma versão do Apache Airflow ao criar um gerenciador de orquestração de fluxo de trabalho.
  • Escala de nuvem - O gerenciador de orquestração de fluxo de trabalho dimensiona automaticamente os nós do Apache Airflow quando necessário com base na especificação de intervalo (mínimo, máximo).
  • Integração do Microsoft Entra – você pode habilitar o RBAC do Microsoft Entra no ambiente do Airflow para uma experiência de logon único protegida pelo Microsoft Entra ID.
  • Criptografia de metadados – O gerenciador de orquestração de fluxo de trabalho criptografa automaticamente metadados usando chaves gerenciadas pelo Azure para garantir que seu ambiente seja seguro por padrão. Também oferece suporte à criptografia dupla com uma CMK (chave gerenciada pelo cliente).
  • Monitorização e alertas do Azure – Todos os registos gerados pelo gerenciador de orquestração de fluxo de trabalho são exportados para o Azure Monitor. Ele também fornece métricas para acompanhar condições críticas e ajudá-lo a notificar, se necessário.

Arquitetura

A captura de tela mostra a arquitetura no gerenciador de orquestração de fluxo de trabalho.

Disponibilidade de região (versão prévia pública)

  • Leste dos EUA
  • Central Sul dos Estados Unidos
  • Oeste dos EUA
  • Brazil South
  • Sul do Reino Unido
  • Norte da Europa
  • Europa Ocidental
  • Sudeste Asiático

Observação

A região do ambiente Airflow é padronizada para a região do Data Factory e não é configurável, portanto, certifique-se de usar um Data Factory na região suportada acima para poder acessar a visualização do gerenciador de orquestração de fluxo de trabalho.

Versões do Apache Airflow com suporte

  • 2.6.3

Observação

Não há suporte para a alteração da versão do Airflow em um IR existente. Em vez disso, a solução recomendada é criar um novo Airflow IR com a versão desejada

Integrações

O Apache Airflow é integrado aos serviços do Microsoft Azure por meio do provedor microsoft.azure.

Você pode instalar qualquer pacote de provedor editando o ambiente do Airflow na interface do usuário do Azure Data Factory. São necessários cerca de alguns minutos para instalar o pacote.

Captura de tela que mostra a integração do Airflow.

Limitações

  • O gerenciador de orquestração de fluxo de trabalho em outras regiões está disponível no GA.
  • As fontes de dados que se conectam por meio do Airflow devem ser acessíveis por meio do ponto de extremidade público (rede).
  • Atualmente, não há suporte para DAGs que estão dentro de um Armazenamento de Blobs na VNet/Atrás do Firewall. Em vez disso, recomendamos usar o recurso de sincronização Git do gerenciador de orquestração de fluxo de trabalho. Veja, Sincronize um repositório GitHub no gerenciador de orquestração de fluxo de trabalho
  • A importação de Dags do Azure Key Vault não tem suporte no LinkedServices.