Conectar-se a Azure Data Lake Storage no Microsoft Purview
Este artigo descreve o processo para registrar e governar uma fonte de dados Azure Data Lake Storage do ADLS Gen2 (ADLS Gen2) no Microsoft Purview, incluindo instruções para autenticar e interagir com a fonte do ADLS Gen2.
Recursos compatíveis
Extração de metadados | Verificação Completa | Verificação Incremental | Verificação em escopo | Classificação | Rotulamento | Política de Acesso | Linhagem | Compartilhamento de dados | Exibição ao vivo |
---|---|---|---|---|---|---|---|---|---|
Sim | Sim | Sim | Sim | Sim | Sim | Sim (versão prévia) | Limitado* | Sim | Sim |
* Há suporte para linhagem se o conjunto de dados for usado como uma origem/coletor no pipeline do Data Factory ou do Synapse.
Ao examinar Azure Data Lake Storage Gen2 fonte, o Microsoft Purview dá suporte à extração de metadados técnicos, incluindo:
- Conta de armazenamento
- Serviço Data Lake Storage Gen2
- Sistema de arquivos (contêiner)
- Folders
- Arquivos
- Conjuntos de recursos
Ao configurar a verificação, você pode optar por examinar as pastas inteiras do ADLS Gen2 ou seletivas. Saiba mais sobre o formato de arquivo com suporte aqui.
Pré-requisitos
Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.
Você precisará ser um Administrador de Fonte de Dados e Leitor de Dados para registrar uma fonte e gerenciá-la no portal de governança do Microsoft Purview. Consulte nossa página Permissões do Microsoft Purview para obter detalhes.
Você precisa ter pelo menos a permissão Leitor na conta do ADLS Gen 2 para poder registrá-la.
Registrar
Esta seção permitirá que você registre a fonte de dados do ADLS Gen2 para verificação e compartilhamento de dados no Purview.
Pré-requisitos para registro
- Você precisará ser uma fonte de dados Administração e uma das outras funções do Purview (por exemplo, Leitor de Dados ou colaborador Data Share) para registrar uma fonte e gerenciá-la no portal de governança do Microsoft Purview. Consulte nossa página Permissões do Microsoft Purview para obter detalhes.
Etapas para se registrar
É importante registrar a fonte de dados no Microsoft Purview antes de configurar uma verificação para a fonte de dados.
Acesse o portal de governança do Microsoft Purview por:
- Navegando diretamente para https://web.purview.azure.com e selecionando sua conta do Microsoft Purview.
- Abrindo o portal do Azure, pesquisando e selecionando a conta do Microsoft Purview. Selecione o botão portal de governança do Microsoft Purview .
Navegar até o Mapa de Dados --> Fontes
Criar a hierarquia Collection usando o menu Coleções e atribuir permissões a subcolleções individuais, conforme necessário
Navegue até a coleção apropriada no menu Fontes e selecione o ícone Registrar para registrar uma nova fonte de dados do ADLS Gen2
Selecione a fonte de dados Azure Data Lake Storage Gen2 e selecione Continuar
Forneça um Nome adequado para a fonte de dados, selecione a assinatura relevante do Azure, o nome da conta existente do Data Lake Store e a coleção e selecione Aplicar. Deixe o alternância Gerenciamento de Uso de Dados na posição desabilitada até que você tenha a chance de passar por cima deste documento com cuidado.
A conta de armazenamento do ADLS Gen2 será mostrada na Coleção selecionada
Examinar
Dica
Para solucionar problemas com a verificação:
- Confirme se você configurou corretamente a autenticação para verificação
- Examine nossa documentação de solução de problemas de verificação.
Autenticação para uma verificação
Sua rede do Azure pode permitir comunicações entre seus recursos do Azure, mas se você tiver configurado firewalls, pontos de extremidade privados ou redes virtuais no Azure, você precisará seguir uma dessas configurações abaixo.
Restrições de rede | Tipo de runtime de integração | Tipos de credencial disponíveis |
---|---|---|
Sem pontos de extremidade ou firewalls privados | Azure IR | Identidade gerenciada (recomendado), entidade de serviço ou chave de conta |
Firewall habilitado, mas sem pontos de extremidade privados | Azure IR | Identidade gerenciada |
Pontos de extremidade privados habilitados | *IR auto-hospedado | Entidade de serviço, chave da conta |
Importante
- *Para usar um runtime de integração auto-hospedada, primeiro você precisará criar um e confirmar as configurações de rede do Microsoft Purview
- Se você usar o runtime do Self-Hosted Integration para verificar arquivos parquet, precisará instalar o JRE 8 de 64 bits (Ambiente do Java Runtime) ou o OpenJDK em seu computador IR. Você pode marcar nosso guia de instalação do Ambiente do Java Runtime.
Usando um sistema ou identidade gerenciada atribuída pelo usuário para verificação
Há dois tipos de identidade gerenciada que você pode usar:
Identidade gerenciada atribuída pelo sistema (Recomendado) – assim que a Conta do Microsoft Purview é criada, uma SAMI (identidade gerenciada atribuída pelo sistema) é criada automaticamente em Azure AD locatário. Dependendo do tipo de recurso, atribuições de função RBAC específicas são necessárias para que a SAMI (identidade gerenciada atribuída pelo sistema do Microsoft Purview) execute as verificações.
Identidade gerenciada atribuída pelo usuário (versão prévia) – Semelhante a uma identidade gerenciada pelo sistema, uma UAMI (identidade gerenciada atribuída pelo usuário) é um recurso de credencial que pode ser usado para permitir que o Microsoft Purview se autentique no Azure Active Directory. Para obter mais informações, você pode ver nosso guia de identidade gerenciada atribuído pelo usuário.
É importante dar à sua conta do Microsoft Purview ou à UAMI (identidade gerenciada atribuída pelo usuário) a permissão para examinar a fonte de dados do ADLS Gen2. Você pode adicionar a identidade gerenciada atribuída ao sistema da sua conta do Microsoft Purview (que tem o mesmo nome da sua conta do Microsoft Purview) ou UAMI no nível de Assinatura, Grupo de Recursos ou Recurso, dependendo de quais permissões de verificação de nível são necessárias.
Observação
Você precisa ser um proprietário da assinatura para poder adicionar uma identidade gerenciada em um recurso do Azure.
No portal do Azure, localize a assinatura, o grupo de recursos ou o recurso (por exemplo, uma conta de armazenamento Azure Data Lake Storage Gen2) que você gostaria de permitir que o catálogo examine.
Selecione Controle de Acesso (IAM) na navegação à esquerda e selecione + Adicionar -->Adicionar atribuição de função
Defina a Função como Leitor de Dados do Blob de Armazenamento e insira o nome da conta do Microsoft Purview ou a identidade gerenciada atribuída pelo usuário na caixa de entrada Selecionar . Em seguida, selecione Salvar para dar essa atribuição de função à sua conta do Microsoft Purview.
Observação
Para obter mais detalhes, confira etapas em Autorizar acesso a blobs e filas usando o Azure Active Directory
Observação
Se você tiver o firewall habilitado para a conta de armazenamento, deverá usar o método de autenticação de identidade gerenciada ao configurar uma verificação.
Acesse sua conta de armazenamento do ADLS Gen2 no portal do Azure
Navegue até Segurança + rede > Rede
Escolha Redes Selecionadas emPermitir acesso
Na seção Exceções , selecione Permitir que serviços confiáveis da Microsoft acessem essa conta de armazenamento e clique em Salvar
Criar a verificação
Abra sua conta do Microsoft Purview e selecione o portal de governança Open Microsoft Purview
Navegue até o mapa de dados -->Fontes para exibir a hierarquia de coleção
Selecione o ícone Nova Verificação na fonte de dados do ADLS Gen2 registrada anteriormente
Se estiver usando um sistema ou uma identidade gerenciada atribuída pelo usuário
Forneça um Nome para a verificação, selecione a identidade gerenciada atribuída pelo sistema ou atribuída pelo usuário em Credencial, escolha a coleção apropriada para a verificação e selecione Testar conexão. Em uma conexão bem-sucedida, selecione Continuar.
Escopo e executar a verificação
Você pode escopo sua verificação para pastas e subpastas específicas escolhendo os itens apropriados na lista.
Em seguida, selecione um conjunto de regras de verificação. Você pode escolher entre o padrão do sistema, os conjuntos de regras personalizados existentes ou criar um novo conjunto de regras embutido.
Se criar um novo conjunto de regras de verificação, selecione os tipos de arquivo a serem incluídos na regra de verificação.
Você pode selecionar as regras de classificação a serem incluídas na regra de verificação
Escolha o gatilho de verificação. Você pode configurar uma agenda ou executar a verificação uma vez.
Examine a verificação e selecione Salvar e executar.
Exibir suas verificações e verificar execuções
Para exibir as verificações existentes:
- Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
- Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .
- Selecione a verificação que tem resultados que você deseja exibir. O painel mostra todas as execuções de verificação anteriores, juntamente com as status e métricas para cada execução de verificação.
- Selecione a ID de execução para marcar os detalhes da execução de verificação.
Gerenciar suas verificações
Para editar, cancelar ou excluir uma verificação:
Acesse o portal de governança do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.
Selecione a fonte de dados. Você pode exibir uma lista de verificações existentes nessa fonte de dados em Verificações recentes ou exibir todas as verificações na guia Verificações .
Selecione a verificação que você deseja gerenciar. Você poderá:
- Edite a verificação selecionando Editar verificação.
- Cancele uma verificação em andamento selecionando Cancelar execução de verificação.
- Exclua sua verificação selecionando Excluir verificação.
Observação
- A exclusão da verificação não exclui os ativos de catálogo criados de verificações anteriores.
- O ativo não será mais atualizado com alterações de esquema se sua tabela de origem tiver sido alterada e você examinar novamente a tabela de origem depois de editar a descrição na guia Esquema do Microsoft Purview.
Compartilhamento de dados
Compartilhamento de Dados do Microsoft Purview (versão prévia) permite o compartilhamento de dados in loco do ADLS Gen2 para o ADLS Gen2. Esta seção fornece detalhes sobre os requisitos específicos do ADLS Gen2 para compartilhamento e recebimento de dados in loco. Consulte Como compartilhar dados e Como receber o compartilhamento passo a passo sobre como usar o compartilhamento de dados.
Contas de armazenamento com suporte para compartilhamento de dados in-loco
As seguintes contas de armazenamento têm suporte para o compartilhamento de dados local:
- Regiões: Canadá Central, Leste do Canadá, Sul do Reino Unido, Oeste do Reino Unido, Leste da Austrália, Leste do Japão, Sul da Coreia e Norte da África do Sul
- Opções de redundância: LRS, GRS, RA-GRS
- Camadas: Quente, Legal
Use apenas contas de armazenamento sem carga de trabalho de produção para a visualização.
Observação
As contas de armazenamento de origem e de destino devem estar na mesma região que as outras. Eles não precisam estar na mesma região que a conta do Microsoft Purview.
Permissões de conta de armazenamento necessárias para compartilhar dados
Para adicionar ou atualizar um ativo de conta de armazenamento a um compartilhamento, você precisa de uma das seguintes permissões:
- Microsoft.Authorization/roleAssignments/write - Essa permissão está disponível na função Proprietário .
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifiPermissions/ – Essa permissão está disponível na função Proprietário de Dados de Armazenamento de Blobs .
Permissões de conta de armazenamento necessárias para receber dados compartilhados
Para mapear um ativo de conta de armazenamento em um compartilhamento recebido, você precisa de uma das seguintes permissões:
- Microsoft.Storage/storageAccounts/write - Essa permissão está disponível na função Colaborador e Proprietário .
- Microsoft.Storage/storageAccounts/blobServices/containers/write - Essa permissão está disponível na função Colaborador, Proprietário, Colaborador de Dados de Blobs de Armazenamento e Proprietário de Dados de Blobs de Armazenamento .
Atualizar dados compartilhados na conta de armazenamento de origem
Atualizações você fizer para arquivos compartilhados ou dados na pasta compartilhada da conta de armazenamento de origem será disponibilizada para o destinatário na conta de armazenamento de destino quase em tempo real. Quando você excluir subpasta ou arquivos dentro da pasta compartilhada, eles desaparecerão para o destinatário. Para excluir a pasta compartilhada, o arquivo ou pastas pai ou contêineres, você precisa primeiro revogar o acesso a todos os seus compartilhamentos da conta de armazenamento de origem.
Acessar dados compartilhados na conta de armazenamento de destino
A conta de armazenamento de destino permite que o destinatário acesse os dados compartilhados somente leitura em tempo quase real. Você pode conectar ferramentas de análise como o Workspace do Synapse e o Databricks aos dados compartilhados para executar a análise. O custo de acesso aos dados compartilhados é cobrado na conta de armazenamento de destino.
Limite de serviço
A conta de armazenamento de origem pode dar suporte a até 20 destinos e a conta de armazenamento de destino pode dar suporte a até 100 fontes. Se você precisar de um aumento no limite, entre em contato com o Suporte.
Adicionar política de acesso
Políticas com suporte
Os seguintes tipos de políticas têm suporte neste recurso de dados do Microsoft Purview:
Pré-requisitos da política de acesso em contas de Armazenamento do Azure
Suporte à região
- Todas as regiões do Microsoft Purview têm suporte.
- Há suporte para contas de armazenamento nas regiões a seguir sem a necessidade de configuração adicional. No entanto, não há suporte para contas ZRS (armazenamento com redundância de zona).
- Leste dos EUA
- Leste dos EUA2
- Centro-Sul dos EUA
- Oeste dos EUA2
- Canadá Central
- Norte da Europa
- Europa Ocidental
- França Central
- Sul do Reino Unido
- Sudeste da Ásia
- Leste da Austrália
- As contas de armazenamento em outras regiões na Nuvem Pública têm suporte após a configuração do sinalizador de recurso AllowPurviewPolicyEnforcement, conforme descrito na próxima seção. Há suporte para contas de armazenamento ZRS recém-criadas, se criadas após a configuração do sinalizador de recurso AllowPurviewPolicyEnforcement.
Se necessário, você pode criar uma nova conta de armazenamento seguindo este guia.
Configurar a assinatura em que a conta de Armazenamento do Azure reside para políticas do Microsoft Purview
Essa etapa só é necessária em determinadas regiões (consulte seção anterior). Para permitir que o Microsoft Purview gerencie políticas para uma ou mais contas de Armazenamento do Azure, execute os seguintes comandos do PowerShell na assinatura em que você implantará sua conta de Armazenamento do Azure. Esses comandos do PowerShell permitirão que o Microsoft Purview gerencie políticas em todas as contas de Armazenamento do Azure nessa assinatura.
Se você estiver executando esses comandos localmente, execute o PowerShell como administrador. Como alternativa, você pode usar o Cloud Shell do Azure no portal do Azure: https://shell.azure.com.
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
Se a saída do último comando mostrar RegistrationState como Registrado, sua assinatura estará habilitada para políticas de acesso. Se a saída estiver registrando, aguarde pelo menos 10 minutos e tente novamente o comando. Não continue a menos que o RegistrationState seja exibido como Registrado.
Configurar a conta do Microsoft Purview para políticas
Registrar a fonte de dados no Microsoft Purview
Antes que uma política possa ser criada no Microsoft Purview para um recurso de dados, você deve registrar esse recurso de dados no Microsoft Purview Studio. Você encontrará as instruções relacionadas ao registro do recurso de dados posteriormente neste guia.
Observação
As políticas do Microsoft Purview dependem do caminho do ARM do recurso de dados. Se um recurso de dados for movido para um novo grupo de recursos ou assinatura, ele precisará ser des registrado e registrado novamente no Microsoft Purview.
Configurar permissões para habilitar o gerenciamento de uso de dados na fonte de dados
Depois que um recurso é registrado, mas antes que uma política possa ser criada no Microsoft Purview para esse recurso, você deve configurar permissões. Um conjunto de permissões é necessário para habilitar o gerenciamento de uso de dados. Isso se aplica a fontes de dados, grupos de recursos ou assinaturas. Para habilitar o gerenciamento de uso de dados, você deve ter privilégios específicos de IAM (Gerenciamento de Identidade e Acesso) no recurso, bem como privilégios específicos do Microsoft Purview:
Você deve ter uma das seguintes combinações de função IAM no caminho do Azure Resource Manager do recurso ou qualquer pai dele (ou seja, usando a herança de permissão IAM):
- Proprietário do IAM
- Colaborador do IAM e Administrador de Acesso de Usuário do IAM
Para configurar permissões de RBAC (controle de acesso baseado em função) do Azure, siga este guia. A captura de tela a seguir mostra como acessar a seção Controle de Acesso no portal do Azure do recurso de dados para adicionar uma atribuição de função.
Observação
A função Proprietário do IAM para um recurso de dados pode ser herdada de um grupo de recursos pai, uma assinatura ou um grupo de gerenciamento de assinatura. Verifique qual Azure AD usuários, grupos e entidades de serviço detêm ou estão herdando a função Proprietário do IAM para o recurso.
Você também precisa ter a função de administrador de fonte de dados do Microsoft Purview para a coleção ou uma coleção pai (se a herança estiver habilitada). Para obter mais informações, consulte o guia sobre como gerenciar atribuições de função do Microsoft Purview.
A captura de tela a seguir mostra como atribuir a função de administrador de fonte de dados no nível da coleção raiz.
Configurar permissões do Microsoft Purview para criar, atualizar ou excluir políticas de acesso
Para criar, atualizar ou excluir políticas, você precisa obter a função de autor de política no Microsoft Purview no nível da coleção raiz:
- A função autor da política pode criar, atualizar e excluir políticas de DevOps e Proprietário de Dados.
- A função de autor da política pode excluir políticas de acesso por autoatendimento.
Para obter mais informações sobre como gerenciar atribuições de função do Microsoft Purview, consulte Criar e gerenciar coleções no Mapa de Dados do Microsoft Purview.
Observação
A função de autor de política deve ser configurada no nível da coleção raiz.
Além disso, para pesquisar facilmente Azure AD usuários ou grupos ao criar ou atualizar o assunto de uma política, você pode se beneficiar muito de obter a permissão Leitores do Diretório em Azure AD. Essa é uma permissão comum para usuários em um locatário do Azure. Sem a permissão Leitor de Diretório, o Autor da Política terá que digitar o nome de usuário ou o email completo para todas as entidades incluídas no assunto de uma política de dados.
Configurar permissões do Microsoft Purview para publicar políticas do Proprietário de Dados
As políticas de Proprietário de Dados permitem verificações e saldos se você atribuir o autor da Política do Microsoft Purview e funções de administrador de fonte de dados a diferentes pessoas na organização. Antes que uma política de proprietário de dados entre em vigor, uma segunda pessoa (administrador de fonte de dados) deve revisá-la e aprová-la explicitamente publicando-a. Isso não se aplica às políticas de acesso de DevOps ou autoatendimento, pois a publicação é automática para elas quando essas políticas são criadas ou atualizadas.
Para publicar uma política de proprietário de dados, você precisa obter a função de administrador de fonte de dados no Microsoft Purview no nível de coleta raiz.
Para obter mais informações sobre como gerenciar atribuições de função do Microsoft Purview, consulte Criar e gerenciar coleções no Mapa de Dados do Microsoft Purview.
Observação
Para publicar políticas de proprietário de dados, a função de administrador de fonte de dados deve ser configurada no nível da coleção raiz.
Delegar a responsabilidade de provisionamento de acesso a funções no Microsoft Purview
Depois que um recurso tiver sido habilitado para o gerenciamento de uso de dados, qualquer usuário do Microsoft Purview com a função de autor de política no nível de coleta raiz pode provisionar o acesso a essa fonte de dados do Microsoft Purview.
Observação
Qualquer administrador do Conjunto raiz do Microsoft Purview pode atribuir novos usuários às funções de autor de política raiz. Qualquer administrador da Coleção pode atribuir novos usuários a uma função de administrador de fonte de dados na coleção. Minimize e examine cuidadosamente os usuários que possuem funções de administrador do Microsoft Purview Collection, administrador de fonte de dados ou autor de política .
Se uma conta do Microsoft Purview com políticas publicadas for excluída, essas políticas deixarão de ser impostas em um período de tempo que depende da fonte de dados específica. Essa alteração pode ter implicações na segurança e na disponibilidade de acesso a dados. As funções Colaborador e Proprietário no IAM podem excluir contas do Microsoft Purview. Você pode marcar essas permissões acessando a seção controle de acesso (IAM) para sua conta do Microsoft Purview e selecionando Atribuições de Função. Você também pode usar um bloqueio para impedir que a conta do Microsoft Purview seja excluída por meio de bloqueios de Resource Manager.
Registrar a fonte de dados no Microsoft Purview para Gerenciamento de Uso de Dados
O recurso de Armazenamento do Azure precisa ser registrado primeiro no Microsoft Purview antes que você possa criar políticas de acesso. Para registrar seu recurso, siga as seções Pré-requisitos e Registrar deste guia:
Depois de registrar a fonte de dados, você precisará habilitar o Gerenciamento de Uso de Dados. Esse é um pré-requisito para que você possa criar políticas na fonte de dados. O Gerenciamento de Uso de Dados pode afetar a segurança de seus dados, pois ele delega a determinadas funções do Microsoft Purview que gerenciam o acesso às fontes de dados. Confira as práticas seguras relacionadas ao Gerenciamento de Uso de Dados neste guia: Como habilitar o Gerenciamento de Uso de Dados
Depois que sua fonte de dados tiver a opção Gerenciamento de Uso de Dados definida como Habilitada, ela será semelhante a esta captura de tela:
Criar uma política
Para criar uma política de acesso para Azure Data Lake Storage Gen2, siga este guia:
Para criar políticas que abrangem todas as fontes de dados dentro de um grupo de recursos ou assinatura do Azure, você pode se referir a esta seção.
Próximas etapas
Siga os guias a seguir para saber mais sobre o Microsoft Purview e seus dados.