자산 정규화
Microsoft Purview 데이터 맵에 자산을 수집할 때 동일한 데이터 자산을 업데이트하는 다른 원본은 유사하지만 약간 다른 정규화된 이름을 보낼 수 있습니다. 이러한 정규화된 이름은 동일한 자산을 나타내지만, 추가 문자와 같은 약간의 차이로 인해 표면에서 이러한 자산이 다르게 표시되고 Microsoft Purview에서 중복 항목이 발생할 수 있습니다. 중복 항목을 저장하고 데이터 카탈로그를 사용할 때 혼동을 일으키지 않도록 Microsoft Purview는 수집 중에 정규화를 적용하여 동일한 엔터티 형식의 정규화된 모든 이름이 동일한 형식인지 확인합니다.
예를 들어 정규화된 이름으로 https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
Azure Blob에서 검색합니다. 이 Blob은 자산에 계보 정보를 추가하는 Azure Data Factory 파이프라인에서도 사용합니다. 파일을 로 읽도록 ADF 파이프라인을 https://myAccount.file.core.windows.net//myshare/folderA/folderB/my-file.parquet
구성할 수 있습니다. 정규화된 이름은 다르지만 이 ADF 파이프라인은 동일한 데이터를 사용합니다. 정규화를 통해 Azure Blob Storage 및 Azure Data Factory 모든 메타데이터가 단일 자산https://myaccount.file.core.windows.net/myshare/folderA/folderB/my-file.parquet
에 표시됩니다.
중요
아래에 나열된 규칙은 Microsoft Purview가 현재 인식하는 유일한 유형의 잠재적 중복입니다. 실수로 자산 중복이 발생하는 경우 자산 정규화된 이름을 검사 비교하여 카플리탈화 차이 또는 추가 문자를 확인합니다. 정규화된 이름이 일치할 수 있도록 ADF 파이프라인과 같은 수집 지점을 업데이트합니다.
정규화 규칙
다음은 Microsoft Purview에서 적용되는 정규화 규칙입니다.
중괄호 인코딩
적용 대상: 모든 자산
전에: https://myaccount.file.core.windows.net/myshare/{folderA}/folder{B/
후: https://myaccount.file.core.windows.net/myshare/%7BfolderA%7D/folder%7BB/
구역 공간 자르기
적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL 풀, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
전에: https://myaccount.file.core.windows.net/myshare/ folder A/folderB /
후: https://myaccount.file.core.windows.net/myshare/folder A/folderB/
호스트 이름 공간 제거
적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
전에: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
대괄호 제거
적용 대상: Azure SQL Database, Azure SQL Managed Instance, Azure SQL 풀
전에: mssql://foo.database.windows.net/[bar]/dbo/[foo bar]
후: mssql://foo.database.windows.net/bar/dbo/foo%20bar
참고
두 대괄호 사이의 공백이 인코딩됩니다.
소문자 구성표
적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
전에: HTTPS://myaccount.file.core.windows.net/myshare/folderA/folderB/
후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
소문자 호스트 이름
적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database, Azure SQL Managed Instance, Azure SQL pool, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Amazon S3
전에: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
소문자 파일 확장자
적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3
전에: https://myAccount.file.core.windows.net/myshare/folderA/data.TXT
후: https://myaccount.file.core.windows.net/myshare/folderA/data.txt
중복 슬래시 제거
적용 대상: Azure Blob, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Data Factory, Azure SQL Database, Azure SQL Managed Instance, Azure SQL 풀, Azure Cosmos DB, Azure Cognitive Search, Azure Data Explorer, Azure Data Share, Amazon S3
전에: https://myAccount.file.core.windows.net//myshare/folderA////folderB/
후: https://myaccount.file.core.windows.net/myshare/folderA/folderB/
ADL 스키마로 변환
적용 대상: Azure Data Lake Storage Gen1
전에: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
후: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
후행 슬래시 제거
Azure Blob, ADLS Gen1 및 ADLS Gen2에 대한 상위 수준 자산에서 후행 슬래시 제거
적용 대상: Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2
자산 유형: "azure_blob_container", "azure_blob_service", "azure_storage_account", "azure_datalake_gen2_service", "azure_datalake_gen2_filesystem", "azure_datalake_gen1_account".
전에: https://myaccount.core.windows.net/
후: https://myaccount.core.windows.net
다음 단계
Azure Blob Storage 계정에서 Microsoft Purview 데이터 맵으로 스캔합니다.