지원되는 데이터 원본 및 파일 형식

이 문서에서는 Microsoft Purview 데이터 맵 현재 지원되는 데이터 원본, 파일 형식 및 검사 개념에 대해 설명합니다.

사용 가능한 데이터 원본 Microsoft Purview 데이터 맵

아래 표에서는 각 데이터 원본에 대해 지원되는 기능을 보여줍니다. 자세한 내용을 보려면 데이터 원본 또는 기능을 선택합니다.

범주 데이터 저장소 기술 메타데이터 분류 계보 액세스 정책 데이터 공유
Azure Azure Blob Storage 제한* 예(미리 보기)
Azure Cosmos DB 아니요*
Azure Data Explorer 아니요*
Azure Data Factory
Azure Data Lake Storage Gen1 제한*
Azure Data Lake Storage Gen2 제한* 예(미리 보기)
Azure Data Share
Azure Database for MySQL 아니요*
Azure Database for PostgreSQL 아니요*
Azure 전용 SQL 풀(이전 SQL DW) 아니요*
Azure 파일 제한*
Azure SQL Database 예(미리 보기) 예(미리 보기)
Azure SQL Managed Instance 아니요*
Azure Synapse Analytics(작업 영역) 예 - Synapse 파이프라인
데이터베이스 Amazon RDS
Cassandra
Db2
Google BigQuery
Hive 메타스토어 데이터베이스 예*
MongoDB
MySQL
Oracle 예*
PostgreSQL
SAP Business Warehouse
SAP HANA
Snowflake
SQL Server 아니요*
Azure-Arc SQL Server 예(미리 보기)
Teradata 예* 아니요
파일 Amazon S3 제한*
HDFS
서비스 및 앱 Erwin
Looker
Power BI
Salesforce
SAP ECC 예*
SAP S/4HANA 예*

* 데이터 원본 내 자산의 계보 외에도 데이터 세트가 Data Factory 또는 Synapse 파이프라인에서 원본/싱크로 사용되는 경우에도 계보가 지원됩니다.

참고

현재 Microsoft Purview 데이터 맵 이름 또는 # 자산이 있는 /\자산을 검색할 수 없습니다. 검사 범위를 지정하고 자산 이름에 해당 문자가 있는 자산을 검색하지 않도록 하려면 Azure SQL 데이터베이스 등록 및 검색의 예제를 사용합니다.

중요

자체 호스팅 통합 런타임을 사용하려는 경우 일부 데이터 원본을 검사하려면 자체 호스팅 통합 런타임 머신에 대한 추가 설정이 필요합니다. 예를 들어 JDK, Visual C++ 재배포 가능 패키지 또는 특정 드라이버입니다. 원본의 경우 필수 구성 요소 세부 정보는 각 원본 문서를 참조하세요. 모든 요구 사항은 필수 구성 요소 섹션에 나열됩니다.

지역 검사

다음은 Microsoft Purview 데이터 맵 스캐너가 실행되는 모든 Azure 데이터 원본(데이터 센터) 지역의 목록입니다. Azure 데이터 원본이 이 목록 외부 지역에 있는 경우 스캐너는 Microsoft Purview 인스턴스의 지역에서 실행됩니다.

Microsoft Purview 데이터 맵 스캐너 영역

  • 오스트레일리아 동부
  • 오스트레일리아 남동부
  • 브라질 남부
  • 캐나다 중부
  • 인도 중부
  • 미국 중부
  • 동아시아
  • 미국 동부
  • 미국 동부 2
  • 프랑스 중부
  • 일본 동부
  • 한국 중부
  • 미국 중북부
  • 북유럽
  • 남아프리카 북부
  • 미국 중남부
  • 동남아시아
  • 아랍에미리트 북부
  • 영국 남부
  • 미국 중서부
  • 서유럽
  • 미국 서부
  • 미국 서부 2

검사가 지원되는 파일 형식

다음 파일 형식은 검사, 스키마 추출 및 해당하는 경우 분류에 대해 지원됩니다.

  • 확장 프로그램에서 지원하는 구조적 파일 형식: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP

참고

  • Microsoft Purview 데이터 맵 스캐너는 위에 나열된 구조화된 파일 형식에 대해서만 스키마 추출을 지원합니다.
  • AVRO, ORC 및 PARQUET 파일 형식의 경우 스캐너는 복잡한 데이터 형식(예: MAP, LIST, STRUCT)이 포함된 파일에 대한 스키마 추출을 지원하지 않습니다.
  • 스캐너는 스키마 추출 및 분류를 위해 스냅 압축 PARQUET 유형 검사를 지원합니다.
  • GZIP 파일 형식의 경우 GZIP를 내의 단일 csv 파일에 매핑해야 합니다. Gzip 파일에는 시스템 및 사용자 지정 분류 규칙이 적용됩니다. 현재는 내부 여러 파일 또는 csv 이외의 파일 형식에 매핑된 gzip 파일 검사를 지원하지 않습니다.
  • 구분된 파일 형식(CSV, PSV, SSV, TSV, TXT)의 경우 데이터 형식 검색을 지원하지 않습니다. 데이터 형식은 모든 열에 대해 "문자열"로 나열됩니다. \
  • Parquet 파일의 경우 자체 호스팅 통합 런타임을 사용하는 경우 IR 머신에 64비트 JRE 8(Java 런타임 환경) 또는 OpenJDK 를 설치해야 합니다. 설치 가이드는 페이지 맨 아래에 있는 Java 런타임 환경 섹션 을 확인하세요.
  • 확장 프로그램에서 지원하는 문서 파일 형식: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
  • Microsoft Purview 데이터 맵 사용자 지정 파일 확장명과 사용자 지정 파서도 지원합니다.

중첩된 데이터

현재 중첩된 데이터는 JSON 콘텐츠에 대해서만 지원됩니다.

시스템이 지원하는 모든 파일 형식의 경우 열에 중첩된 JSON 콘텐츠가 있는 경우 스캐너는 중첩된 JSON 데이터를 구문 분석하고 자산의 스키마 탭 내에 표시합니다.

중첩된 데이터 또는 중첩된 스키마 구문 분석은 SQL에서 지원되지 않습니다. 중첩된 데이터가 있는 열이 보고되고 있는 그대로 분류되며 하위 데이터는 구문 분석되지 않습니다.

분류를 위한 샘플링 데이터

Microsoft Purview 데이터 맵 용어에서

  • L1 검사: 파일 이름, 크기, 정규화된 이름과 같은 기본 정보 및 메타데이터를 추출합니다.
  • L2 검사: 구조적 파일 형식 및 데이터베이스 테이블에 대한 스키마를 추출합니다.
  • L3 검사: 해당하는 경우 스키마를 추출하고 샘플링된 파일을 시스템 및 사용자 지정 분류 규칙에 적용합니다.

모든 구조화된 파일 형식의 경우 Microsoft Purview 데이터 맵 스캐너는 다음과 같은 방식으로 파일을 샘플링합니다.

  • 구조적 파일 형식의 경우 각 열에서 상위 128개 행 또는 처음 1MB 중 더 낮은 행을 샘플링합니다.
  • 문서 파일 형식의 경우 각 파일의 처음 20MB를 샘플링합니다.
    • 문서 파일이 20MB보다 크면 심층 검사가 적용되지 않습니다(분류될 수 있음). 이 경우 Microsoft Purview는 파일 이름 및 정규화된 이름과 같은 기본 메타 데이터만 캡처합니다.
  • 테이블 형식 데이터 원본(SQL)의 경우 상위 128개 행을 샘플합니다.
  • Azure Cosmos DB(SQL API)의 경우 컨테이너의 처음 10개 문서에서 최대 300개의 고유 속성이 스키마에 대해 수집되고 각 속성에 대해 최대 128개의 문서 또는 처음 1MB의 값이 샘플링됩니다.

리소스 집합 파일 샘플링

파티션 파일의 폴더 또는 그룹은 시스템 리소스 집합 정책 또는 고객 정의 리소스 집합 정책과 일치하는 경우 Microsoft Purview 데이터 맵 리소스 집합으로 검색됩니다. 리소스 집합이 검색되면 스캐너는 포함된 각 폴더를 샘플링합니다. 여기에서 리소스 집합에 대해 자세히 알아보세요.

파일 형식별 리소스 집합에 대한 파일 샘플링:

  • 구분된 파일 형식(CSV, PSV, SSV, TSV) - 100개 파일 중 1개가 '리소스 집합'으로 간주되는 파티션 파일의 폴더 또는 그룹 내에서 샘플링됩니다(L3 검사).
  • Data Lake 파일 형식(Parquet, Avro, Orc) - '리소스 집합'으로 간주되는 파티션 파일의 폴더 또는 그룹 내에서 18446744073709551615(긴 최대) 파일의 1개 샘플링(L3 검사)
  • 다른 구조적 파일 형식(JSON, XML, TXT) - 100개 파일 중 1개가 '리소스 집합'으로 간주되는 파티션 파일의 폴더 또는 그룹 내에서 샘플링됩니다(L3 검사).
  • SQL 개체 및 CosmosDB 엔터티 -각 파일은 L3에서 검사됩니다.
  • 문서 파일 형식 - 각 파일은 L3에서 검사됩니다. 리소스 집합 패턴은 이러한 파일 형식에 적용되지 않습니다.

분류

모든 208 시스템 분류 규칙은 구조화된 파일 형식에 적용됩니다. MCE 분류 규칙만 문서 파일 형식에 적용됩니다(데이터 검사 기본 regex 패턴, 블룸 필터 기반 검색에는 적용되지 않음). 지원되는 분류에 대한 자세한 내용은 Microsoft Purview 데이터 맵 지원되는 분류를 참조하세요.

다음 단계