Partilhar via


Criar regras de padrão de conjunto de recursos

Os sistemas de processamento de dados em escala normalmente armazenam uma única tabela no armazenamento como vários arquivos. Esse conceito é representado no Microsoft Purview usando conjuntos de recursos. Um conjunto de recursos é um único objeto no catálogo de dados que representa um grande número de ativos no armazenamento. Para saber mais, confira Entender conjuntos de recursos.

Ao examinar uma conta de armazenamento, o Microsoft Purview usa um conjunto de padrões definidos para determinar se um grupo de ativos é um conjunto de recursos. Em alguns casos, o agrupamento de conjuntos de recursos do Microsoft Purview pode não refletir com precisão seu patrimônio de dados. As regras de padrão de conjunto de recursos permitem personalizar ou substituir como o Microsoft Purview detecta quais ativos são agrupados como conjuntos de recursos e como eles são exibidos no catálogo.

Atualmente, há suporte para regras de padrão nos seguintes tipos de origem:

  • Azure Data Lake Storage Gen2
  • Azure Storage Blob
  • Arquivos do Azure
  • Amazon S3

O conjunto de recursos avançado deve ser habilitado para criar regras de padrão de conjunto de recursos. Para saber mais, confira Entender conjuntos de recursos avançados.

Como criar uma regra de padrão de conjunto de recursos

Siga as etapas abaixo para criar uma nova regra de padrão de conjunto de recursos:

  1. Vá para o mapa de dados. Selecione Regras de padrão no menu no título Gerenciamento de origem. Selecione + Novo para criar um novo conjunto de regras.

    Criar nova regra de padrão de conjunto de recursos

  2. Insira o escopo da regra de padrão do conjunto de recursos. Selecione o tipo de conta de armazenamento e o nome da conta de armazenamento na qual você deseja criar uma regra definida. Cada conjunto de regras é aplicado em relação a um escopo de caminho de pasta especificado no campo Caminho da pasta .

    Criar configurações de regra de padrão de conjunto de recursos

  3. Para inserir uma regra para um escopo de configuração, selecione + Nova Regra.

  4. Insira nos seguintes campos para criar uma regra:

    1. Nome da regra: O nome da regra de configuração. Esse campo não tem efeito sobre os ativos aos que a regra se aplica.

    2. Nome qualificado: Um caminho qualificado que usa uma combinação de texto, substituidores dinâmicos e substituidores estáticos para corresponder ativos à regra de configuração. Esse caminho é relativo ao escopo da regra de configuração. Confira a seção de sintaxe abaixo para obter instruções detalhadas sobre como especificar nomes qualificados.

    3. Nome da exibição: O nome de exibição do ativo. Esse campo é opcional. Use texto simples e substituidores estáticos para personalizar como um ativo é exibido no catálogo. Para obter instruções mais detalhadas, confira a seção sintaxe abaixo.

    4. Não agrupar como conjunto de recursos: Se habilitado, o recurso correspondente não será agrupado em um conjunto de recursos.

      Crie uma nova regra de configuração.

  5. Salve a regra selecionando Adicionar.

Observação

Depois que uma regra de padrão for criada, todas as novas verificações aplicarão a regra durante a ingestão. Os ativos existentes no catálogo de dados serão atualizados por meio de um processo em segundo plano que pode levar até algumas horas.

Sintaxe de regra padrão

Ao criar regras de padrão de conjunto de recursos, use a sintaxe a seguir para especificar a quais regras de ativos se aplicam.

Substituidores dinâmicos (colchetes individuais)

Colchetes únicos são usados como substituidores dinâmicos em regras de padrão. Especifique um substituto dinâmico no nome qualificado usando o formato {<replacerName:<replacerType>}. Se correspondidos, os substituidores dinâmicos serão usados como uma condição de agrupamento que indica que os ativos devem ser representados como um conjunto de recursos. Se os ativos forem agrupados em um conjunto de recursos, o caminho qualificado do conjunto de recursos conterá {replacerName} onde o substituto foi especificado.

Por exemplo, se dois ativos e correspondidos folder1/file-1.csv à regra {folder:string}/file-{NUM:int}.csv, o conjunto de recursos será uma única entidade {folder}/file-{NUM}.csv.folder2/file-2.csv

Caso especial: substituidores dinâmicos ao não agrupar em conjunto de recursos

Se Não agrupar como conjunto de recursos estiver habilitado para uma regra de padrão, o nome do substituto será um campo opcional. {:<replacerType>} é sintaxe válida. Por exemplo, file-{:int}.csv corresponderia com êxito file-1.csv e file-2.csv criaria dois ativos diferentes em vez de um conjunto de recursos.

Substituidores estáticos (colchetes duplos)

Colchetes duplos são usados como substituidores estáticos no nome qualificado de uma regra de padrão. Especifique um substituto estático no nome qualificado usando o formato {{<replacerName>:<replacerType>}}. Se correspondido, cada conjunto de valores de substituição estáticos exclusivos criará agrupamentos de conjuntos de recursos diferentes.

Por exemplo, se dois ativos e folder2/file-2.csv correspondidos à regra {{folder:string}}/file-{NUM:int}.csv, dois conjuntos folder1/file-1.csv de recursos serão criados folder1/file-{NUM}.csv e folder2/file-{NUM}.csv.

Substituidores estáticos podem ser usados para especificar o nome de exibição de um ativo correspondente a uma regra de padrão. O uso {{<replacerName>}} no nome de exibição de uma regra usará o valor correspondente no nome do ativo.

Tipos de substituição disponíveis

Veja abaixo os tipos disponíveis que podem ser usados em substituidores estáticos e dinâmicos:

Tipo Structure
string Uma série de um ou mais caracteres Unicode, incluindo delimitadores como espaços.
int Uma série de 1 ou mais caracteres ASCII de 0 a 9, pode ser 0 prefixado (por exemplo, 0001).
guid Uma série de representação de cadeia de caracteres 32 ou 8-4-4-12 de uma UUID, conforme definido no RFC 4122.
data Uma série de 6 ou 8 0-9 caracteres ASCII com separadores opcionalmente: yyyymmdd, yyyy-mm-dd, yymmdd, yy-mm-dd, especificados no RFC 3339.
hora Uma série de 4 ou 6 caracteres ASCII 0-9 com separadores opcionalmente: HHmm, HH:mm, HHmmss, HH:mm:ss especificados no RFC 3339.
Timestamp Uma série de 12 ou 14 caracteres ASCII 0-9 com separadores opcionalmente: yyyy-mm-ddTHH:mm, yyyymmddhhmm, yyyy-mm-ddTHH:mm:ss, yyyymmddHHmmss especificado no RFC 3339.
booliano Pode conter 'true' ou 'false', caso insensível.
number Uma série de 0 ou mais 0-9 caracteres ASCII, pode ser 0 prefixado (por exemplo, 0001) seguido por opcionalmente um ponto '.' e uma série de 1 ou mais 0-9 caracteres ASCII, ele pode ser 0 postfixado (por exemplo, .100)
Hex Uma série de um ou mais caracteres ASCII do conjunto 0-1 e A-F, o valor pode ser 0 prefixado
localidade Uma cadeia de caracteres que corresponde à sintaxe especificada no RFC 5646.

Ordem de regras de padrão de conjunto de recursos sendo aplicadas

Veja abaixo a ordem das operações para aplicar regras de padrão:

  1. Escopos mais específicos terão prioridade se um ativo corresponder a duas regras. Por exemplo, as regras em um escopo container/folder serão aplicadas antes das regras no escopo container.

  2. Ordem de regras dentro de um escopo específico. Isso pode ser editado no UX.

  3. Se um ativo não corresponder a nenhuma regra especificada, a heurística padrão do conjunto de recursos será aplicada.

Exemplos

Exemplo 1

Extração de dados SAP em cargas completas e delta

Entradas

Arquivos:

  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt

Regra de padrão

Escopo:https://myazureblob.blob.core.windows.net/bar/

Nome da exibição: 'Cliente Externo'

Nome qualificado:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt

Conjunto de Recursos: true

Saída

Um ativo de conjunto de recursos

Nome de exibição: Cliente Externo

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt

Exemplo 2

Dados IoT no formato avro

Entradas

Arquivos:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Regras de padrão

Escopo:https://myazureblob.blob.core.windows.net/bar/

Regra 1

Nome da exibição: 'machine-89'

Nome qualificado:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro

Conjunto de Recursos: true

Regra 2

Nome da exibição: 'machine-90'

Nome qualificado:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro

Conjunto de Recursos: true

Saídas

Dois conjuntos de recursos

Conjunto de Recursos 1

Nome de Exibição: computador-89

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Conjunto de Recursos 2

Nome de exibição: machine-90

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Exemplo 3

Dados IoT no formato avro

Entradas

Arquivos:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Regra de padrão

Escopo:https://myazureblob.blob.core.windows.net/bar/

Nome da exibição: 'Machine-{{machineid}}'

Nome qualificado:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro

Conjunto de Recursos: true

Saídas

Conjunto de Recursos 1

Nome de exibição: machine-89

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Conjunto de Recursos 2

Nome de exibição: machine-90

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Exemplo 4

Não agrupar em conjuntos de recursos

Entradas

Arquivos:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Regra de padrão

Escopo:https://myazureblob.blob.core.windows.net/bar/

Nome da exibição:Machine-{{machineid}}

Nome qualificado:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro

Conjunto de Recursos: false

Saídas

Quatro ativos individuais

Ativo 1

Nome de exibição: machine-89

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro

Ativo 2

Nome de exibição: machine-89

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro

Ativo 3

Nome de exibição: machine-89

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro

Ativo 4

Nome de exibição: machine-90

Nome qualificado:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Próximas etapas

Comece registrando e verificando uma conta de armazenamento do Azure Data Lake Gen2.