Entender conjuntos de recursos

Este artigo ajuda você a entender como o Microsoft Purview usa conjuntos de recursos para mapear ativos de dados para recursos lógicos.

Informações em segundo plano

Os sistemas de processamento de dados em escala normalmente armazenam uma única tabela no armazenamento como vários arquivos. No Catálogo de Dados do Microsoft Purview, esse conceito é representado usando conjuntos de recursos. Um conjunto de recursos é um único objeto no catálogo que representa um grande número de ativos no armazenamento.

Por exemplo, suponha que o cluster do Spark tenha persistido um DataFrame em uma fonte de dados do ADLS (Azure Data Lake Storage) Gen2. Embora no Spark a tabela pareça um único recurso lógico, no disco provavelmente há milhares de arquivos Parquet, cada um dos quais representa uma partição do conteúdo total do DataFrame. Dados IoT e dados de log da Web têm o mesmo desafio. Imagine que você tenha um sensor que gera arquivos de log várias vezes por segundo. Não vai demorar muito até que você tenha centenas de milhares de arquivos de log desse sensor único.

Como o Microsoft Purview detecta conjuntos de recursos

O Microsoft Purview dá suporte à detecção de conjuntos de recursos em Armazenamento de Blobs do Azure, ADLS Gen1, ADLS Gen2, Arquivos do Azure e Amazon S3.

O Microsoft Purview detecta automaticamente conjuntos de recursos ao examinar. Esse recurso analisa todos os dados ingeridos por meio da verificação e os compara a um conjunto de padrões definidos.

Por exemplo, suponha que você examine uma fonte de dados cuja URL é https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet. O Microsoft Purview analisa os segmentos de caminho e determina se eles correspondem a padrões internos. Ele tem padrões internos para GUIDs, números, formatos de data, códigos de localização (por exemplo, en-us) e assim por diante. Nesse caso, o padrão de número corresponde a 23. O Microsoft Purview pressupõe que esse arquivo faça parte de um conjunto de recursos chamado https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet.

Ou, para uma URL como https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json, o Microsoft Purview corresponde ao padrão de localização e ao padrão de número, produzindo um conjunto de recursos chamado https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json.

Usando essa estratégia, o Microsoft Purview mapearia os seguintes recursos para o mesmo conjunto de recursos: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Tipos de arquivo que o Microsoft Purview não detectará como conjuntos de recursos

O Microsoft Purview intencionalmente não tenta classificar a maioria dos tipos de arquivo de documento, como Word, Excel ou PDF como Conjuntos de Recursos. A exceção é o formato CSV, pois esse é um formato de arquivo particionado comum.

Como o Microsoft Purview verifica conjuntos de recursos

Quando o Microsoft Purview detecta recursos que ele acha que fazem parte de um conjunto de recursos, ele muda de uma verificação completa para uma verificação de exemplo. Uma verificação de exemplo abre apenas um subconjunto dos arquivos que ele acha que estão no conjunto de recursos. Para cada arquivo aberto, ele usa seu esquema e executa seus classificadores. Em seguida, o Microsoft Purview encontra o recurso mais recente entre os recursos abertos e usa o esquema e as classificações desse recurso na entrada para todo o conjunto de recursos no catálogo.

Conjuntos de recursos avançados

O Microsoft Purview pode personalizar e enriquecer ainda mais seus ativos de conjunto de recursos por meio da funcionalidade Conjuntos de Recursos Avançados . Conjuntos de recursos avançados permitem que o Microsoft Purview entenda as partições subjacentes de dados ingeridos e permite a criação de regras de padrão de conjunto de recursos que personalizam como o Microsoft Purview agrupa conjuntos de recursos durante a verificação.

Quando conjuntos de recursos avançados estão habilitados, o Microsoft Purview executa agregações extras para calcular as seguintes informações sobre ativos de conjunto de recursos:

  • Um caminho de exemplo de um arquivo que compreende o conjunto de recursos.
  • Uma contagem de partições que mostra quantos arquivos compõem o conjunto de recursos.
  • O tamanho total de todos os arquivos que compõem o conjunto de recursos.

Essas propriedades podem ser encontradas na página de detalhes do ativo do conjunto de recursos.

As propriedades calculadas quando os conjuntos de recursos avançados estão ativados

Ativando conjuntos de recursos avançados

Os conjuntos de recursos avançados estão desativados por padrão em todas as novas instâncias do Microsoft Purview. Conjuntos de recursos avançados podem ser habilitados a partir de informações de conta no hub de gerenciamento. Somente os usuários que são adicionados à função de Curador de Dados na coleção raiz, podem gerenciar configurações de Conjuntos de Recursos Avançados.

Ative o conjunto de recursos avançado.

Depois de habilitar conjuntos de recursos avançados, os enriquecimentos adicionais ocorrerão em todos os ativos recém-ingeridos. A equipe do Microsoft Purview recomenda esperar uma hora antes de examinar novos dados do data lake após a agregação no recurso.

Importante

Habilitar conjuntos de recursos avançados afetará a taxa de atualização de insights de ativos e classificação. Quando os conjuntos de recursos avançados estiverem ativados, os insights de ativo e classificação só serão atualizados duas vezes por dia.

Padrões de conjunto de recursos internos

O Microsoft Purview dá suporte aos seguintes padrões de conjunto de recursos. Esses padrões podem aparecer como um nome em um diretório ou como parte de um nome de arquivo.

Padrões baseados em Regex

Nome do padrão Nome de exibição Descrição
Guid {GUID} Um identificador globalmente exclusivo, conforme definido no RFC 4122
Número {N} Um ou mais dígitos
Formatos de data/hora {Year} {Month} {Day} {N} Oferecemos suporte a vários formatos de data/hora, mas todos são representados com {Year}[delimitador]{Month}[delimititer]{Day} ou uma série de {N}s.
4ByteHex {HEX} Um número HEX de 4 dígitos.
Localização {LOC} Uma marca de idioma conforme definido no BCP 47, há suporte para nomes - e _ (por exemplo, en_ca e en-ca)

Padrões complexos

Nome do padrão Nome de exibição Descrição
SparkPath {SparkPartitions} Identificador de arquivo de partição do Spark
Date(yyyy/mm/dd)InPath {Year}/{Month}/{Day} Padrão ano/mês/dia que abrange várias pastas

Como os conjuntos de recursos são exibidos no Catálogo de Dados do Microsoft Purview

Quando o Microsoft Purview corresponde a um grupo de ativos em um conjunto de recursos, ele tenta extrair as informações mais úteis a serem usadas como um nome de exibição no catálogo. Alguns exemplos da convenção de nomenclatura padrão aplicada:

Exemplo 1

Nome qualificado: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

Nome da exibição: "nome da saída do spark"

Exemplo 2

Nome qualificado: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

Nome de exibição: "meus dados particionados"

Exemplo 3

Nome qualificado: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

Nome de exibição: "dados"

Personalizar o agrupamento de conjuntos de recursos usando regras de padrão

Ao examinar uma conta de armazenamento, o Microsoft Purview usa um conjunto de padrões definidos para determinar se um grupo de ativos é um conjunto de recursos. Em alguns casos, o agrupamento de conjuntos de recursos do Microsoft Purview pode não refletir com precisão seu patrimônio de dados. Esses problemas podem incluir:

  • Marcando incorretamente um ativo como um conjunto de recursos
  • Colocar um ativo no conjunto de recursos errado
  • Marcando incorretamente um ativo como não sendo um conjunto de recursos

Para personalizar ou substituir como o Microsoft Purview detecta quais ativos são agrupados como conjuntos de recursos e como eles são exibidos no catálogo, você pode definir regras de padrão no centro de gerenciamento. Para obter instruções passo a passo e sintaxe, consulte regras de padrão de conjunto de recursos.

Limitações conhecidas com conjuntos de recursos

  • Por padrão, os ativos de conjunto de recursos só serão excluídos por uma verificação se os conjuntos de recursos avançados estiverem habilitados. Se esse recurso estiver desativado, os ativos de conjunto de recursos só poderão ser excluídos manualmente ou por meio da API.

Próximas etapas

Para começar a usar o Microsoft Purview, confira Início Rápido: Criar uma conta do Microsoft Purview.