Compartir vía


Normalización de recursos

Al ingerir recursos en el mapa de datos de Microsoft Purview, los distintos orígenes que actualizan el mismo recurso de datos pueden enviar nombres calificados similares, pero ligeramente diferentes. Aunque estos nombres calificados representan el mismo recurso, pequeñas diferencias, como un carácter adicional, pueden hacer que estos recursos en la superficie parezcan diferentes y provocar entradas duplicadas en Microsoft Purview. Para evitar almacenar entradas duplicadas y causar confusión al consumir el catálogo de datos, Microsoft Purview aplica la normalización durante la ingesta para asegurarse de que todos los nombres completos del mismo tipo de entidad están en el mismo formato.

Por ejemplo, puede examinar en un blob de Azure con el nombre https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquetcompleto . Este blob también lo consume una canalización de Azure Data Factory que, a continuación, agregará información de linaje al recurso. La canalización de ADF se puede configurar para leer el archivo como https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet. Aunque el nombre completo es diferente, esta canalización de ADF consume la misma parte de datos. La normalización garantiza que todos los metadatos de Azure Blob Storage y Azure Data Factory estén visibles en un único recurso, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet.

Importante

Las reglas que se enumeran a continuación son los únicos tipos de posibles dupilaciones que Microsoft Purview reconoce actualmente. Si experimenta una duplicación accidental de recursos, compare los nombres completos de los recursos para comprobar si hay diferencias de caplitalización o caracteres adicionales. Actualice los puntos de ingesta, por ejemplo, las canalizaciones de ADF, para que los nombres completos coincidan.

Reglas de normalización

A continuación se muestran las reglas de normalización aplicadas por Microsoft Purview.

Codificación de corchetes

Se aplica a: Todos los recursos

Antes: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/

Después: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/

Recorte de espacios de sección

Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /

Después: https://myaccount.file.core.windows.net/myshare/folder A/folderB/

Eliminación de espacios de nombre de host

Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Quitar corchetes

Se aplica a: Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool

Antes: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]

Después: mssql://foo.database.windows.net/bar/dbo/foo%20bar

Nota:

Se codificarán espacios entre dos corchetes

Esquema en minúsculas

Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Antes: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/

Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Nombre de host en minúsculas

Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3

Antes: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Extensión de archivo en minúsculas

Se aplica a: Blob de Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3

Antes: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT

Después: https://myaccount.file.core.windows.net/myshare/folderA/data.txt

Quitar barra diagonal duplicada

Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3

Antes: https://myAccount.file.core.windows.net//myshare/folderA////folderB/

Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/

Conversión al esquema ADL

Se aplica a: Azure Data Lake Storage Gen1

Antes: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Después: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

Quitar barra diagonal final

Eliminación de la barra diagonal final de los recursos de nivel superior para Azure Blob, ADLS Gen1 y ADLS Gen2

Se aplica a: Blob de Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2

Tipos de recursos: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".

Antes: https://myaccount.core.windows.net/

Después: https://myaccount.core.windows.net

Siguientes pasos

Examine en una cuenta de Azure Blob Storage en el mapa de datos de Microsoft Purview.