Compartilhar via


Normalização de ativos

Ao ingerir ativos no mapa de dados do Microsoft Purview, diferentes fontes atualizando o mesmo ativo de dados podem enviar nomes qualificados semelhantes, mas ligeiramente diferentes. Embora esses nomes qualificados representem o mesmo ativo, pequenas diferenças, como um caractere extra, podem fazer com que esses ativos na superfície apareçam diferentes e causem entradas duplicadas no Microsoft Purview. Para evitar armazenar entradas duplicadas e causar confusão ao consumir o catálogo de dados, o Microsoft Purview aplica a normalização durante a ingestão para garantir que todos os nomes totalmente qualificados do mesmo tipo de entidade estejam no mesmo formato.

Por exemplo, você verifica em um Blob do Azure com o nome https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetqualificado . Esse blob também é consumido por um pipeline Azure Data Factory que, em seguida, adicionará informações de linhagem ao ativo. O pipeline do ADF pode ser configurado para ler o arquivo como https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet. Embora o nome qualificado seja diferente, esse pipeline do ADF está consumindo a mesma parte dos dados. A normalização garante que todos os metadados de Armazenamento de Blobs do Azure e Azure Data Factory sejam visíveis em um único ativo, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Importante

As regras listadas abaixo são os únicos tipos de dupilcação potencial que o Microsoft Purview reconhece atualmente. Se você estiver enfrentando duplicação de ativo acidental, compare os ativos nomes totalmente qualificados com marcar para diferenças de caplitalização ou caracteres adicionais. Atualize todos os pontos de ingestão, por exemplo, seus pipelines do ADF, para que os nomes qualificados correspondam.

Regras de normalização

Abaixo estão as regras de normalização aplicadas pelo Microsoft Purview.

Codificar colchetes encaracolados

Aplica-se a: Todos os ativos

Antes: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Depois: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Cortar espaços de seção

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool de SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Depois: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Remover espaços de nome de host

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, SQL do Azure pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Remover colchetes

Aplica-se a: banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool de SQL do Azure

Antes: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Depois: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Observação

Espaços entre dois colchetes serão codificados

Esquema de minúsculas

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Antes: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nome do host minúscula

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Antes: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Extensão de arquivo minúscula

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Antes: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Depois: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Remover barra duplicada

Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool de SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Converter em esquema ADL

Aplica-se a: Azure Data Lake Storage Gen1

Antes: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Depois: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Remover barra à direita

Remover a barra à direita de ativos de nível mais alto para Blob do Azure, ADLS Gen1 e ADLS Gen2

Aplica-se a: Blob do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Tipos de ativos: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Antes: https://myaccount.core.windows.net/

Depois: https://myaccount.core.windows.net

Próximas etapas

Examine em uma conta Armazenamento de Blobs do Azure no mapa de dados do Microsoft Purview.