Como obter linhagem do fluxo de ar no Microsoft Purview (versão prévia)
O fluxo de ar é uma plataforma de automação e agendamento de fluxo de trabalho de código aberto que pode ser usada para criar e gerenciar pipelines de dados. O Microsoft Purview dá suporte à coleta de linhagem de fluxo de ar integrando-se ao OpenLineage, uma estrutura aberta para coleta e análise de linhagem de dados. Saiba mais sobre como o Fluxo de Ar funciona com o OpenLineage aqui.
Habilitar o OpenLineage no Airflow rastreia automaticamente metadados e linhagem sobre trabalhos e conjuntos de dados à medida que os DAGs são executados. As informações são enviadas para um Hubs de Eventos do Azure que você configura. O Microsoft Purview assina os eventos, analisa-os e ingere-os no mapa de dados.
Importante
Este recurso está atualmente no modo de visualização. Os Termos de Uso Suplementares para Visualizações do Microsoft Azure incluem termos legais adicionais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral.
Recursos compatíveis
As versões de fluxo de ar com suporte são 1.10+ e 2.0-2.7.
O Microsoft Purview dá suporte a metadados e coleção de linhagem quando os seguintes tipos de fontes de dados são usados no fluxo de ar:
- Amazon RDS para PostgreSQL
- Banco de Dados do Azure para PostgreSQL
- Google BigQuery
- Postgresql
- Snowflake
Os seguintes metadados de fluxo de ar são capturados junto:
- Workspace de fluxo de ar
- DAG de fluxo de ar
- Tarefa de fluxo de ar
A linhagem é coletada no Microsoft Purview após execuções bem-sucedidas do DAG de maneira baseada em eventos.
Limitações conhecidas
- No momento, não há suporte para linhagem de nível de coluna. O esquema dos ativos de dados é capturado.
- Se as exibições de banco de dados forem referenciadas nas tarefas, elas serão capturadas atualmente como ativos de tabela.
- Todos os metadados são ingeridos na coleção raiz do Microsoft Purview. Os ativos já existentes no mapa de dados são preservados na coleção configurada.
Como trazer linhagem de fluxo de ar para o Microsoft Purview
Como pré-requisito, você precisa de uma instância de fluxo de ar em execução.
Para obter a linhagem do fluxo de ar no Microsoft Purview, você precisa:
- Configurar um Hubs de Eventos do Azure
- Configurar hubs de eventos para publicar mensagens no Microsoft Purview
- Configurar seu fluxo de ar com OpenLineage
- Executar trabalhos de fluxo de ar e exibir os ativos/linhagem
Configurar Hubs de Eventos do Azure
Configure um Hubs de Eventos do Azure como o receptor dos metadados e da linhagem rastreados pelo OpenLineage no Fluxo de Ar.
Crie um hub de eventos. Nomeie seu hub de eventos como "microsoft_internal_openlineage".
Acesse os hubs de eventos "microsoft_internal_openlineage" -Controle de>acesso (IAM) ->Adicionar atribuição de função, atribua a função "Hubs de Eventos do Azure Data Receiver" à identidade gerenciada da sua conta do Microsoft Purview. Para obter etapas detalhadas, consulte Atribuir funções do Azure usando o portal do Azure.
Configurar hubs de eventos para publicar mensagens no Microsoft Purview
O Microsoft Purview dá suporte ao consumo e ao push de eventos de/para seus próprios Hubs de Eventos. Siga este documento para configurar hubs de eventos para Microsoft Purview: configure Hubs de Eventos com o Microsoft Purview para enviar e receber mensagens de tópicos do Atlas Kafka.
Em resumo:
Acesse sua conta do Microsoft Purview –> Guia Recursos gerenciados, desabilite o namespace dos Hubs de Eventos gerenciados.
Acesse a guia configuração do Kafka ->+ Adicionar configuração ->Gancho, inserir um nome e selecionar o namespace dos Hubs de Eventos e os Hubs de Eventos que você criou na etapa anterior.
Configurar seu fluxo de ar com OpenLineage
Instalação:
Para baixar e instalar a biblioteca mais recente 'openlineage-airflow', atualize o arquivo 'requirements.txt' da instância de fluxo de ar em execução com:
openlineage-airflow
Observação
A versão do fluxo de ar e a versão openlineage-airflow precisam corresponder. Por exemplo, ao usar o Airflow 2.7.1, você pode usar o fluxo de ar aberto versão 1.1.0 ou 1.2.0. Você pode exibir versões correspondentes neste site.
Configuração:
Em seguida, configure sua instância Hubs de Eventos do Azure como o destino para o qual o OpenLineage envia os eventos.
Crie um arquivo 'openlineage.yml' no caminho raiz do fluxo de ar. O conteúdo do arquivo é o seguinte:
transport: type: "kafka" config: bootstrap.servers: "{EVENTHUB_SERVER}:9093" security.protocol: "SASL_SSL" sasl.mechanism: "PLAIN" sasl.username: "$ConnectionString" sasl.password: "{PASSWORD}" client.id: "airflow-client" topic: "microsoft_internal_openlineage" flash: True
Substitua os dois detentores de lugar por valores:
Reinicie seu servidor airflow.
Executar trabalhos de fluxo de ar e exibir os ativos/linhagem
Agora você pode executar seus trabalhos de fluxo de ar e, em seguida, ir para o portal de Governança do Microsoft Purview para procurar/pesquisar/exibir ativos. Os ativos devem aparecer logo após uma execução bem-sucedida do DAG.
Procurar ativos de fluxo de ar:
Exibir detalhes do ativo de tarefa do fluxo de ar com linhagem:
Dicas de solução de problemas
Se você executar o trabalho de fluxo de ar, mas não vir os ativos/linhagem correspondentes exibidos no Microsoft Purview:
- Verifique se o caso de uso do fluxo de ar tem suporte do Microsoft Purview. Consulte a seção recursos com suporte .
- Acesse a instância dos Hubs de Eventos para marcar se houver solicitações e mensagens de entrada. Se não, marcar duas vezes a configuração openlineage no fluxo de ar.