지원되는 데이터 원본 및 파일 형식

이 문서에서는 Microsoft Purview 데이터 맵 현재 지원되는 데이터 원본, 파일 형식 및 검사 개념에 대해 설명합니다.

사용 가능한 데이터 원본 Microsoft Purview 데이터 맵

아래 표에는 Microsoft Purview에서 사용할 수 있는 기술 메타데이터가 있는 모든 원본이 나와 있습니다. 자세한 내용은 데이터 원본을 선택합니다. 표에는 각 데이터 원본에 대해 지원되는 추가 기능도 나열되어 있으며, 자세한 내용은 이 기능을 선택할 수 있습니다.

범주 지원되는 데이터 저장소 분류 라이브 보기 계보 레이블 지정 액세스 정책 데이터 공유
Azure 여러 원본 제한 아니요 원본 종속 아니요
Azure Blob 저장소 제한* (미리 보기)
Azure Cosmos DB(NoSQL용 API) 아니요 아니요* 아니요 아니요
Azure Data Explorer 아니요 아니요* 아니요 아니요
Azure Data Factory 아니요 아니요 아니요 아니요 아니요
Azure Data Lake Storage Gen1 아니요 제한* 아니요 아니요
Azure Data Lake Storage Gen2 제한* (미리 보기)
Azure Data Share 아니요 아니요 아니요 아니요 아니요
Azure Database for MySQL 아니요 아니요* 아니요 아니요
Azure Database for PostgreSQL 아니요 아니요* 아니요 아니요
Azure Databricks 아니요 아니요 아니요 아니요 아니요
Azure Databricks Unity 카탈로그 아니요 아니요 아니요 아니요 아니요 아니요
Azure Dedicated SQL 풀(이전의 SQL DW) 아니요 아니요* 아니요 아니요 아니요
Azure Files 아니요 제한* 아니요 아니요
Azure Machine Learning 아니요 아니요 아니요 아니요 아니요
Azure SQL 데이터베이스 예(미리 보기) 아니요
Azure SQL Managed Instance 아니요 아니요* 예(미리 보기) 아니요
Azure Synapse Analytics(작업 영역) 아니요 예 - Synapse 파이프라인 아니요 아니요
Database Amazon RDS 아니요 아니요 아니요 아니요 아니요
Amazon Redshift 아니요 아니요 아니요 아니요 아니요 아니요
카산드라 아니요 아니요 아니요 아니요 아니요
Db2 아니요 아니요 아니요 아니요 아니요
Google BigQuery 아니요 아니요 아니요 아니요 아니요
Hive 메타스토어 데이터베이스 아니요 아니요 예* 아니요 아니요 아니요
Mongodb 아니요 아니요 아니요 아니요 아니요 아니요
Mysql 아니요 아니요 아니요 아니요 아니요
오라클 아니요 예* 아니요 아니요 아니요
Postgresql 아니요 아니요 아니요 아니요 아니요
SAP Business Warehouse 아니요 아니요 아니요 아니요 아니요 아니요
SAP HANA 아니요 아니요 아니요 아니요 아니요 아니요
눈송이 아니요 아니요 아니요 아니요
SQL 서버 아니요 아니요* 아니요 아니요
Azure-Arc의 SQL Server 아니요 아니요* 아니요 아니요
Teradata 아니요 예* 아니요 아니요 아니요
File Amazon S3 아니요 제한* 아니요 아니요
HDFS 아니요 아니요 아니요 아니요 아니요
서비스 및 앱 공기 흐름 아니요 아니요 아니요 아니요 아니요
어윈 아니요 아니요 아니요 아니요 아니요
미인 아니요 아니요 아니요 아니요 아니요
Power BI 아니요 아니요 아니요 아니요 아니요
Salesforce 아니요 아니요 아니요 아니요 아니요 아니요
SAP ECC 아니요 아니요 예* 아니요 아니요 아니요
SAP S/4HANA 아니요 아니요 예* 아니요 아니요 아니요

* 데이터 원본 내 자산의 계보 외에도 데이터 세트가 Data Factory 또는 Synapse 파이프라인에서 원본/싱크로 사용되는 경우에도 계보가 지원됩니다.

참고

현재 Microsoft Purview 데이터 맵 이름에 , \또는 # 가 있는 /자산을 검색할 수 없습니다. 검사를 scope 자산 이름에 해당 문자가 있는 자산을 검사하지 않도록 하려면 Azure SQL 데이터베이스 등록 및 검사의 예제를 사용합니다.

중요

자체 호스팅 통합 런타임을 사용하려는 경우 일부 데이터 원본을 검사하려면 자체 호스팅 통합 런타임 컴퓨터에 대한 추가 설정이 필요합니다. 예를 들어 JDK, Visual C++ 재배포 가능 패키지 또는 특정 드라이버입니다. 원본의 경우 필수 구성 요소 세부 정보는 각 원본 문서를 참조하세요. 모든 요구 사항은 필수 구성 요소 섹션에 나열됩니다.

영역 검사

다음은 Microsoft Purview 데이터 맵 스캐너가 실행되는 모든 Azure 데이터 원본(데이터 센터) 지역의 목록입니다. Azure 데이터 원본이 이 목록 외부 지역에 있는 경우 스캐너는 Microsoft Purview instance 지역에서 실행됩니다.

스캐너 영역 Microsoft Purview 데이터 맵

  • 오스트레일리아 동부
  • 오스트레일리아 남동부
  • 브라질 남부
  • 캐나다 중부
  • 캐나다 동부
  • 인도 중부
  • 중국 북부 3
  • 동아시아
  • 미국 동부
  • 미국 동부 2
  • 프랑스 중부
  • 독일 중서부
  • 일본 동부
  • 조선중앙
  • 미국 중북부
  • 북유럽
  • 카타르 중부
  • 남아프리카 공화국 북부
  • 미국 중남부
  • 동남아시아
  • 스위스 북부
  • 아랍에미리트 북부
  • 영국 남부
  • USGov 버지니아
  • 미국 중서부
  • 서유럽
  • 미국 서부
  • 미국 서부 2
  • 미국 서부 3

검색에 지원되는 파일 형식

다음 파일 형식은 검사, 스키마 추출 및 해당하는 경우 분류에 대해 지원됩니다.

  • 확장에서 지원하는 구조적 파일 형식에는 검사, 스키마 추출 및 자산 및 열 수준 분류가 포함됩니다. AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
  • 확장에서 지원되는 문서 파일 형식에는 검사 및 자산 수준 분류가 포함됩니다. DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
  • Microsoft Purview 데이터 맵 사용자 지정 파일 확장명 및 사용자 지정 파서도 지원합니다.

참고

알려진 제한 사항:

  • Microsoft Purview 데이터 맵 스캐너는 위에 나열된 구조화된 파일 형식에 대해서만 스키마 추출을 지원합니다.
  • AVRO, ORC 및 PARQUET 파일 형식의 경우 스캐너는 복잡한 데이터 형식(예: MAP, LIST, STRUCT)이 포함된 파일에 대한 스키마 추출을 지원하지 않습니다.
  • 스캐너는 스키마 추출 및 분류를 위해 스냅 압축 PARQUET 형식 검사를 지원합니다.
  • GZIP 파일 형식의 경우 GZIP를 내의 단일 csv 파일에 매핑해야 합니다. Gzip 파일에는 시스템 및 사용자 지정 분류 규칙이 적용됩니다. 현재는 내의 여러 파일 또는 csv 이외의 파일 형식에 매핑된 gzip 파일 검사를 지원하지 않습니다.
  • 구분된 파일 형식(CSV, PSV, SSV, TSV, TXT)의 경우:
    • 데이터 형식 검색은 지원하지 않습니다. 데이터 형식은 모든 열에 대해 "문자열"로 나열됩니다.
    • 쉼표(','), 세미콜론(';'), 세로 막대('|') 및 tab('\t')만 구분 기호로 지원합니다.
    • 행이 3개 미만인 분리된 파일은 사용자 지정 구분 기호를 사용하는 경우 CSV 파일로 확인할 수 없습니다. 예를 들어 ~ 구분 기호가 있고 행이 3개 미만인 파일은 CSV 파일로 확인할 수 없습니다.
    • 필드에 큰따옴표가 포함된 경우 큰따옴표는 필드의 시작과 끝에만 표시될 수 있으며 일치해야 합니다. 필드 중간에 표시되거나 시작과 끝에 표시되지만 일치하지 않는 큰따옴표는 잘못된 데이터로 인식되며 파일에서 구문 분석되는 스키마가 없습니다. 머리글 행과 열 수가 다른 행은 오류 행으로 판단됩니다. (오류 행 수/샘플링된 행 수)는 0.1보다 작아야 합니다.
  • Parquet 파일의 경우 자체 호스팅 통합 런타임을 사용하는 경우 IR 머신에 64비트 JRE 11(Java 런타임 환경) 또는 OpenJDK 를 설치해야 합니다. 설치 가이드는 페이지 아래쪽에 있는 Java 런타임 환경 섹션 을 확인하세요.

스키마 추출

현재 자산 스키마 탭에서 지원되는 최대 열 수는 Azure 원본, Power BI 및 SQL 서버의 경우 800개입니다.

중첩된 데이터

현재 중첩된 데이터는 JSON 콘텐츠에 대해서만 지원됩니다.

시스템이 지원하는 모든 파일 형식의 경우 열에 중첩된 JSON 콘텐츠가 있는 경우 스캐너는 중첩된 JSON 데이터를 구문 분석하고 자산의 스키마 탭 내에 표시합니다.

중첩된 데이터 또는 중첩된 스키마 구문 분석은 SQL에서 지원되지 않습니다. 중첩된 데이터가 있는 열은 있는 그대로 보고되고 분류되며 하위 데이터는 구문 분석되지 않습니다.

분류를 위한 샘플링 데이터

Microsoft Purview 데이터 맵 용어에서

  • L1 검사: 파일 이름, 크기 및 정규화된 이름과 같은 기본 정보 및 메타 데이터를 추출합니다.
  • L2 검사: 구조화된 파일 형식 및 데이터베이스 테이블에 대한 스키마 추출
  • L3 검사: 해당하는 경우 스키마를 추출하고 샘플링된 파일을 시스템 및 사용자 지정 분류 규칙에 적용합니다.

모든 구조화된 파일 형식의 경우 Microsoft Purview 데이터 맵 스캐너는 다음과 같은 방법으로 파일을 샘플링합니다.

  • 구조화된 파일 형식의 경우 각 열의 상위 128개 행 또는 처음 1MB 중 더 낮은 행을 샘플링합니다.
  • 문서 파일 형식의 경우 각 파일의 처음 20MB를 샘플합니다.
    • 문서 파일이 20MB보다 큰 경우 분류에 따라 심층 검사가 적용되지 않습니다. 이 경우 Microsoft Purview는 파일 이름 및 정규화된 이름과 같은 기본 메타 데이터만 캡처합니다.
  • 테이블 형식 데이터 원본(SQL)의 경우 상위 128개 행을 샘플합니다.
  • NoSQL용 Azure Cosmos DB의 경우 컨테이너의 처음 10개 문서에서 최대 300개의 고유 속성이 스키마에 대해 수집되고 각 속성에 대해 최대 128개의 문서 또는 처음 1MB의 값이 샘플링됩니다.

리소스 집합 파일 샘플링

폴더 또는 파티션 파일 그룹은 시스템 리소스 집합 정책 또는 고객 정의 리소스 집합 정책과 일치하는 경우 Microsoft Purview 데이터 맵 리소스 집합으로 검색됩니다. 리소스 집합이 검색되면 스캐너는 포함된 각 폴더를 샘플링합니다. 여기에서 리소스 집합에 대해 자세히 알아보세요.

파일 형식별 리소스 집합에 대한 파일 샘플링:

  • 구분된 파일(CSV, PSV, SSV, TSV) - 100개 파일 중 1개는 '리소스 집합'으로 간주되는 파티션 파일의 폴더 또는 그룹 내에서 샘플링(L3 검사)
  • Data Lake 파일 형식(Parquet, Avro, Orc) - '리소스 집합'으로 간주되는 파티션 파일의 폴더 또는 그룹 내에서 18446744073709551615(long max) 파일의 1개 샘플링(L3 검사)
  • 기타 구조화된 파일 형식(JSON, XML, TXT) - 100개 파일 중 1개는 '리소스 집합'으로 간주되는 파티션 파일의 폴더 또는 그룹 내에서 샘플링(L3 검사)됩니다.
  • SQL 개체 및 Azure Cosmos DB 엔터티 - 각 파일은 L3 검사됩니다.
  • 문서 파일 형식 - 각 파일은 L3 스캔됩니다. 리소스 집합 패턴은 이러한 파일 형식에 적용되지 않습니다.

다음 단계