Como conectar Azure Data Factory e Microsoft Purview
Este documento explica as etapas necessárias para conectar uma conta Azure Data Factory com uma conta do Microsoft Purview para acompanhar a linhagem de dados e ingerir fontes de dados. O documento também entra nos detalhes do escopo de cobertura da atividade e dos padrões de linhagem com suporte.
Quando você conecta um Azure Data Factory ao Microsoft Purview, sempre que uma atividade de Azure Data Factory com suporte for executada, metadados sobre os dados de origem, os dados de saída e a atividade da atividade serão ingeridos automaticamente no Mapa de Dados do Microsoft Purview.
Se uma fonte de dados já tiver sido digitalizada e existir no mapa de dados, o processo de ingestão adicionará as informações de linhagem de Azure Data Factory à fonte existente. Se a origem ou saída não existir no mapa de dados e tiver suporte por Azure Data Factory linhagem, o Microsoft Purview adicionará automaticamente seus metadados de Azure Data Factory no mapa de dados sob a coleção raiz.
Essa pode ser uma excelente maneira de monitorar seu patrimônio de dados à medida que os usuários movem e transformam informações usando Azure Data Factory.
Exibir conexões existentes do Data Factory
Várias Fábricas de Dados do Azure podem se conectar a um único Microsoft Purview para enviar informações de linhagem por push. O limite atual permite que você conecte até 10 contas do Data Factory por vez do centro de gerenciamento do Microsoft Purview. Para mostrar a lista de contas do Data Factory conectadas à sua conta do Microsoft Purview, faça o seguinte:
Selecione Gerenciamento no painel de navegação esquerdo.
Em Conexões de linhagem, selecione Data Factory.
A lista de conexões do Data Factory é exibida.
Observe os vários valores para o Status da conexão:
- Conectado: o data factory está conectado à conta do Microsoft Purview.
- Desconectado: o data factory tem acesso ao catálogo, mas está conectado a outro catálogo. Como resultado, a linhagem de dados não será relatada ao catálogo automaticamente.
- CannotAccess: o usuário atual não tem acesso ao data factory, portanto, a conexão status é desconhecida.
Observação
Para exibir as conexões do Data Factory, você precisa receber a função a seguir. Não há suporte para herança de função do grupo de gerenciamento. Função de administradores de coleção na coleção raiz.
Criar uma nova conexão do Data Factory
Observação
Para adicionar ou remover as conexões do Data Factory, você precisa receber a função a seguir. Não há suporte para herança de função do grupo de gerenciamento. Função de administradores de coleção na coleção raiz.
Além disso, exige que os usuários sejam "Proprietário" ou "Colaborador" do data factory.
Seu data factory precisa ter a identidade gerenciada atribuída pelo sistema habilitada.
Siga as etapas abaixo para conectar um data factory existente à sua conta do Microsoft Purview. Você também pode conectar o Data Factory à conta do Microsoft Purview do ADF.
Selecione Gerenciamento no painel de navegação esquerdo.
Em Conexões de linhagem, selecione Data Factory.
Na página de conexão do Data Factory , selecione Novo.
Selecione sua conta do Data Factory na lista e selecione OK. Você também pode filtrar pelo nome da assinatura para limitar sua lista.
Algumas instâncias do Data Factory poderão ser desabilitadas se o data factory já estiver conectado à conta atual do Microsoft Purview ou o data factory não tiver uma identidade gerenciada.
Uma mensagem de aviso será exibida se algum dos Data Factorys selecionados já estiver conectado a outra conta do Microsoft Purview. Quando você selecionar OK, a conexão do Data Factory com a outra conta do Microsoft Purview será desconectada. Nenhuma outra confirmação é necessária.
Observação
Oferecemos suporte para adicionar até 10 contas de Azure Data Factory ao mesmo tempo. Se você quiser adicionar mais de 10 contas de data factory, faça isso em vários lotes.
Como funciona a autenticação
A identidade gerenciada do data factory é usada para autenticar operações de push de linhagem do data factory para o Microsoft Purview. Quando você conecta seu data factory ao Microsoft Purview na interface do usuário, ele adiciona a atribuição de função automaticamente.
Conceda a função de Curador de Dados de identidade gerenciada do data factory na coleção raiz do Microsoft Purview. Saiba mais sobre o controle access no Microsoft Purview e adicionar funções e restringir o acesso por meio de coleções.
Remover conexões do Data Factory
Para remover uma conexão de data factory, faça o seguinte:
Na página de conexão do Data Factory , selecione o botão Remover ao lado de uma ou mais conexões de data factory.
Selecione Confirmar no pop-up para excluir as conexões selecionadas do data factory.
Monitorar os links do Data Factory
No portal de governança do Microsoft Purview, você pode monitorar os links do Data Factory.
Atividades de Azure Data Factory com suporte
O Microsoft Purview captura a linhagem de runtime das seguintes atividades de Azure Data Factory:
Importante
O Microsoft Purview descarta a linhagem se a origem ou o destino usar um sistema de armazenamento de dados sem suporte.
A integração entre o Data Factory e o Microsoft Purview dá suporte apenas a um subconjunto dos sistemas de dados compatíveis com o Data Factory, conforme descrito nas seções a seguir.
suporte atividade Copy
Armazenamento de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cognitive Search | Sim |
Azure Cosmos DB for NoSQL * | Sim |
Azure Cosmos DB para MongoDB * | Sim |
Azure Data Explorer * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MariaDB * | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Arquivos do Azure | Sim |
Banco de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Pool de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
Armazenamento de Tabelas do Azure | Sim |
Amazon S3 | Sim |
Colméia* | Sim |
Oracle* | Sim |
Tabela SAP (ao se conectar ao SAP ECC ou SAP S/4HANA) | Sim |
SQL Server * | Sim |
Teradata* | Sim |
* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.
Se você usar o Integration Runtime auto-hospedado, observe a versão mínima com suporte de linhagem para:
- Qualquer caso de uso: versão 5.9.7885.3 ou posterior
- Copiar dados do Oracle: versão 5.10 ou posterior
- Copiar dados no Azure Synapse Analytics por meio do comando COPY ou PolyBase: versão 5.10 ou posterior
Limitações na linhagem de atividade de cópia
Atualmente, se você usar os seguintes recursos de atividade de cópia, a linhagem ainda não terá suporte:
- Copie dados em Azure Data Lake Storage Gen1 usando o formato Binário.
- Configuração de compactação para arquivos Binary, texto delimitado, Excel, JSON e XML.
- Opções de partição de origem para Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server e tabela SAP.
- Copie dados para o coletor baseado em arquivo com a configuração de linhas máximas por arquivo.
- No momento, não há suporte para linhagem de nível de coluna pela atividade de cópia quando a origem/coletor é definida.
Além da linhagem, o esquema de ativo de dados (mostrado na guia Ativo –> Esquema) é relatado para os seguintes conectores:
- Arquivos CSV e Parquet no Blob do Azure, Arquivos do Azure, ADLS Gen1, ADLS Gen2 e Amazon S3
- Banco de Dados do Azure Data Explorer, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, análise de Azure Synapse, SQL Server, Teradata
suporte Fluxo de Dados
Armazenamento de dados | Com suporte |
---|---|
Azure Storage Blob | Sim |
Azure Cosmos DB for NoSQL * | Sim |
Azure Data Lake Storage Gen1 | Sim |
Azure Data Lake Storage Gen2 | Sim |
Banco de Dados do Azure para MySQL * | Sim |
Banco de Dados do Azure para PostgreSQL * | Sim |
Banco de Dados SQL do Azure * | Sim |
Instância Gerenciada de SQL do Azure * | Sim |
Azure Synapse Analytics * | Sim |
Pool de SQL dedicado do Azure (anteriormente SQL DW) * | Sim |
* O Microsoft Purview atualmente não dá suporte a consultas ou procedimentos armazenados para linhagem ou verificação. A linhagem é limitada apenas a fontes de tabela e exibição.
Limitações na linhagem de fluxo de dados
- A linhagem de fluxo de dados pode gerar um conjunto de recursos no nível da pasta sem visibilidade nos arquivos envolvidos.
- No momento, não há suporte para linhagem de nível de coluna quando a origem/coletor é definida.
- Para a linhagem da atividade de fluxo de dados, o Microsoft Purview só dá suporte a mostrar a origem e o coletor envolvidos. A linhagem detalhada para transformação de fluxo de dados ainda não tem suporte.
Executar suporte ao pacote SSIS
Consulte armazenamentos de dados com suporte.
Conta do Microsoft Purview protegida de acesso
Se sua conta do Microsoft Purview estiver protegida por firewall, saiba como permitir que o Data Factory acesse uma conta protegida do Microsoft Purview por meio de pontos de extremidade privados do Microsoft Purview.
Trazer linhagem do Data Factory para o Microsoft Purview
Para obter um passo a passo de ponta a ponta, siga o Tutorial: Enviar dados de linhagem do Push Data Factory para o Microsoft Purview.
Padrões de linhagem com suporte
Há vários padrões de linhagem compatíveis com o Microsoft Purview. Os dados de linhagem gerados baseiam-se no tipo de origem e coletor usados nas atividades do Data Factory. Embora o Data Factory dê suporte a mais de 80 coletores e fontes, o Microsoft Purview dá suporte apenas a um subconjunto, conforme listado em atividades de Azure Data Factory com suporte.
Para configurar o Data Factory para enviar informações de linhagem, consulte Introdução à linhagem.
Algumas outras maneiras de encontrar informações no modo de exibição de linhagem incluem o seguinte:
- Na guia Linhagem , passe o mouse sobre formas para visualizar informações adicionais sobre o ativo na dica de ferramenta.
- Selecione o nó ou a borda para ver o tipo de ativo que pertence ou para alternar ativos.
- As colunas de um conjunto de dados são exibidas no lado esquerdo da guia Linhagem . Para obter mais informações sobre a linhagem no nível da coluna, consulte Linhagem de coluna do conjunto de dados.
Linhagem de dados para operações 1:1
O padrão mais comum para capturar a linhagem de dados é mover dados de um único conjunto de dados de entrada para um único conjunto de dados de saída, com um processo no meio.
Um exemplo desse padrão seria o seguinte:
- 1 fonte/entrada: Cliente (Tabela SQL)
- 1 coletor/saída: Customer1.csv (Blob do Azure)
- 1 processo: CopyCustomerInfo1#Customer1.csv (Data Factory atividade Copy)
Movimentação de dados com linhagem 1:1 e suporte curinga
Outro cenário comum para capturar a linhagem é usar um curinga para copiar arquivos de um único conjunto de dados de entrada para um único conjunto de dados de saída. O curinga permite que a atividade de cópia corresponda a vários arquivos para copiar usando uma parte comum do nome do arquivo. O Microsoft Purview captura a linhagem no nível do arquivo para cada arquivo individual copiado pela atividade de cópia correspondente.
Um exemplo desse padrão seria o seguinte:
- Fonte/entrada: CustomerCall*.csv (caminho do ADLS Gen2)
- Coletor/saída: CustomerCall*.csv (arquivo de blob do Azure)
- 1 processo: CopyGen2ToBlob#CustomerCall.csv (Data Factory atividade Copy)
Movimentação de dados com linhagem n:1
Você pode usar Fluxo de Dados atividades para executar operações de dados como mesclagem, junção e assim por diante. Mais de um conjunto de dados de origem pode ser usado para produzir um conjunto de dados de destino. Neste exemplo, o Microsoft Purview captura a linhagem no nível do arquivo para arquivos de entrada individuais em uma tabela SQL que faz parte de uma atividade Fluxo de Dados.
Um exemplo desse padrão seria o seguinte:
- 2 fontes/entradas: Customer.csv, Sales.parquet (Caminho do ADLS Gen2)
- 1 coletor/saída: dados da empresa (SQL do Azure tabela)
- 1 processo: DataFlowBlobsToSQL (atividade de Fluxo de Dados do Data Factory)
Linhagem para conjuntos de recursos
Um conjunto de recursos é um objeto lógico no catálogo que representa muitos arquivos de partição no armazenamento subjacente. Para obter mais informações, confira Entender conjuntos de recursos. Quando o Microsoft Purview captura a linhagem do Azure Data Factory, ele aplica as regras para normalizar os arquivos de partição individuais e criar um único objeto lógico.
No exemplo a seguir, um conjunto de recursos do Azure Data Lake Gen2 é produzido a partir de um Blob do Azure:
- 1 fonte/entrada: Employee_management.csv (Blob do Azure)
- 1 coletor/saída: Employee_management.csv (Azure Data Lake Gen 2)
- 1 processo: CopyBlobToAdlsGen2_RS (data factory atividade Copy)
Próximas etapas
Tutorial: Enviar dados de linhagem do Data Factory para o Microsoft Purview