Нормализация активов
При приеме ресурсов в карту данных Microsoft Purview разные источники, обновляющие один и тот же ресурс данных, могут отправлять похожие, но немного разные полные имена. Хотя эти полные имена представляют один и тот же ресурс, незначительные различия, такие как дополнительный символ, могут привести к тому, что эти ресурсы на поверхности будут отображаться по-разному и дублировать записи в Microsoft Purview. Чтобы избежать сохранения повторяющихся записей и возникновения путаницы при использовании каталога данных, Microsoft Purview применяет нормализацию во время приема, чтобы убедиться, что все полные имена одного типа сущности имеют одинаковый формат.
Например, вы сканируете большой двоичный объект Azure с полным именем https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
. Этот большой двоичный объект также используется конвейером Фабрика данных Azure, который затем добавляет сведения о происхождении данных в ресурс. Конвейер ADF может быть настроен для чтения файла как https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
. Хотя полное имя отличается, этот конвейер ADF использует один и тот же фрагмент данных. Нормализация гарантирует, что все метаданные из Хранилище BLOB-объектов Azure и Фабрика данных Azure будут видны в одном ресурсе , https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
.
Важно!
Приведенные ниже правила являются единственными видами потенциального dupilcation, распознаваемого в настоящее время Microsoft Purview. Если возникает случайное дублирование ресурсов, сравните полные имена ресурсов с проверка для различий каплитализации или дополнительных символов. Обновите все точки приема, например конвейеры ADF, чтобы полные имена совпадали.
Правила нормализации
Ниже приведены правила нормализации, применяемые Microsoft Purview.
Кодирование фигурных скобок
Область применения: Все ресурсы
Перед: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
После: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
Обрезка пространств разделов
Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Фабрика данных Azure, база данных Azure SQL, Управляемый экземпляр SQL Azure, пул Azure SQL, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Перед: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
После: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
Удаление пространств имен узлов
Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure SQL pool, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Перед: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Удаление квадратных скобок
Область применения: база данных Azure SQL, Управляемый экземпляр SQL Azure, пул Azure SQL
Перед: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
После: mssql://foo.database.windows.net/bar/dbo/foo%20bar
Примечание.
Пробелы между двумя квадратными скобками будут закодированы
Схема в нижнем регистре
Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure SQL пул, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Amazon S3
Перед: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Имя узла в нижнем регистре
Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, база данных Azure SQL, Управляемый экземпляр SQL Azure, Azure SQL пул, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Amazon S3
Перед: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Расширение файла в нижнем регистре
Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Amazon S3
Перед: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
После: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
Удаление повторяющихся косой черты
Область применения: Большой двоичный объект Azure, Файлы Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, Фабрика данных Azure, база данных Azure SQL, Управляемый экземпляр SQL Azure, пул Azure SQL, Azure Cosmos DB, Когнитивный поиск Azure, Azure Data Explorer, Azure Data Share, Amazon S3
Перед: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
После: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
Преобразование в схему ADL
Область применения: Azure Data Lake Storage 1-го поколения
Перед: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
После: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
Удаление косой черты
Удаление косой черты из ресурсов более высокого уровня для BLOB-объектов Azure, ADLS 1-го поколения и ADLS 2-го поколения
Область применения: Большой двоичный объект Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения
Типы активов: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".
Перед: https://myaccount.core.windows.net/
После: https://myaccount.core.windows.net
Дальнейшие действия
Выполните сканирование в учетной записи Хранилище BLOB-объектов Azure на карте данных Microsoft Purview.