Normalización de recursos
Al ingerir recursos en el mapa de datos de Microsoft Purview, los distintos orígenes que actualizan el mismo recurso de datos pueden enviar nombres calificados similares, pero ligeramente diferentes. Aunque estos nombres calificados representan el mismo recurso, pequeñas diferencias, como un carácter adicional, pueden hacer que estos recursos en la superficie parezcan diferentes y provocar entradas duplicadas en Microsoft Purview. Para evitar almacenar entradas duplicadas y causar confusión al consumir el catálogo de datos, Microsoft Purview aplica la normalización durante la ingesta para asegurarse de que todos los nombres completos del mismo tipo de entidad están en el mismo formato.
Por ejemplo, puede examinar en un blob de Azure con el nombre https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
completo . Este blob también lo consume una canalización de Azure Data Factory que, a continuación, agregará información de linaje al recurso. La canalización de ADF se puede configurar para leer el archivo como https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
. Aunque el nombre completo es diferente, esta canalización de ADF consume la misma parte de datos. La normalización garantiza que todos los metadatos de Azure Blob Storage y Azure Data Factory estén visibles en un único recurso, https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
.
Importante
Las reglas que se enumeran a continuación son los únicos tipos de posibles dupilaciones que Microsoft Purview reconoce actualmente. Si experimenta una duplicación accidental de recursos, compare los nombres completos de los recursos para comprobar si hay diferencias de caplitalización o caracteres adicionales. Actualice los puntos de ingesta, por ejemplo, las canalizaciones de ADF, para que los nombres completos coincidan.
Reglas de normalización
A continuación se muestran las reglas de normalización aplicadas por Microsoft Purview.
Codificación de corchetes
Se aplica a: Todos los recursos
Antes: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
Después: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
Recorte de espacios de sección
Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Antes: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
Después: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
Eliminación de espacios de nombre de host
Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Antes: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Quitar corchetes
Se aplica a: Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool
Antes: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
Después: mssql://foo.database.windows.net/bar/dbo/foo%20bar
Nota:
Se codificarán espacios entre dos corchetes
Esquema en minúsculas
Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
Antes: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Nombre de host en minúsculas
Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
Antes: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Extensión de archivo en minúsculas
Se aplica a: Blob de Azure, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3
Antes: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
Después: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
Quitar barra diagonal duplicada
Se aplica a: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, grupo de Azure SQL, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
Antes: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
Después: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Conversión al esquema ADL
Se aplica a: Azure Data Lake Storage Gen1
Antes: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Después: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Quitar barra diagonal final
Eliminación de la barra diagonal final de los recursos de nivel superior para Azure Blob, ADLS Gen1 y ADLS Gen2
Se aplica a: Blob de Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2
Tipos de recursos: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".
Antes: https://myaccount.core.windows.net/
Después: https://myaccount.core.windows.net
Siguientes pasos
Examine en una cuenta de Azure Blob Storage en el mapa de datos de Microsoft Purview.