Normalização de ativos
Ao ingerir ativos no mapa de dados do Microsoft Purview, diferentes fontes atualizando o mesmo ativo de dados podem enviar nomes qualificados semelhantes, mas ligeiramente diferentes. Embora esses nomes qualificados representem o mesmo ativo, pequenas diferenças, como um caractere extra, podem fazer com que esses ativos na superfície apareçam diferentes e causem entradas duplicadas no Microsoft Purview. Para evitar armazenar entradas duplicadas e causar confusão ao consumir o catálogo de dados, o Microsoft Purview aplica a normalização durante a ingestão para garantir que todos os nomes totalmente qualificados do mesmo tipo de entidade estejam no mesmo formato.
Por exemplo, você verifica em um Blob do Azure com o nome https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
qualificado . Esse blob também é consumido por um pipeline Azure Data Factory que, em seguida, adicionará informações de linhagem ao ativo. O pipeline do ADF pode ser configurado para ler o arquivo como https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
. Embora o nome qualificado seja diferente, esse pipeline do ADF está consumindo a mesma parte dos dados. A normalização garante que todos os metadados de Armazenamento de Blobs do Azure e Azure Data Factory sejam visíveis em um único ativo, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
.
Importante
As regras listadas abaixo são os únicos tipos de dupilcação potencial que o Microsoft Purview reconhece atualmente. Se você estiver enfrentando duplicação de ativo acidental, compare os ativos nomes totalmente qualificados com marcar para diferenças de caplitalização ou caracteres adicionais. Atualize todos os pontos de ingestão, por exemplo, seus pipelines do ADF, para que os nomes qualificados correspondam.
Regras de normalização
Abaixo estão as regras de normalização aplicadas pelo Microsoft Purview.
Codificar colchetes encaracolados
Aplica-se a: Todos os ativos
Antes: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
Depois: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
Cortar espaços de seção
Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool de SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Antes: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
Depois: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
Remover espaços de nome de host
Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, SQL do Azure pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Antes: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Remover colchetes
Aplica-se a: banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool de SQL do Azure
Antes: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
Depois: mssql://foo.database.windows.net/bar/dbo/foo%20bar
Observação
Espaços entre dois colchetes serão codificados
Esquema de minúsculas
Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
Antes: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Nome do host minúscula
Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Banco de Dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
Antes: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Extensão de arquivo minúscula
Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3
Antes: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
Depois: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
Remover barra duplicada
Aplica-se a: Blob do Azure, Arquivos do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, pool de SQL do Azure, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Antes: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
Depois: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Converter em esquema ADL
Aplica-se a: Azure Data Lake Storage Gen1
Antes: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Depois: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Remover barra à direita
Remover a barra à direita de ativos de nível mais alto para Blob do Azure, ADLS Gen1 e ADLS Gen2
Aplica-se a: Blob do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2
Tipos de ativos: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".
Antes: https://myaccount.core.windows.net/
Depois: https://myaccount.core.windows.net
Próximas etapas
Examine em uma conta Armazenamento de Blobs do Azure no mapa de dados do Microsoft Purview.