Microsoft Purview에서 검사 및 수집

이 문서에서는 Microsoft Purview의 검사 및 수집 기능에 대한 개요를 제공합니다. 이러한 기능은 Microsoft Purview 계정을 원본에 연결하여 데이터 맵 및 데이터 카탈로그를 채웁니다. 따라서 Microsoft Purview를 통해 데이터 탐색 및 관리를 시작할 수 있습니다.

  • 검사는데이터 원본 에서 메타데이터를 캡처하여 Microsoft Purview로 가져옵니다.
  • 수집은 메타데이터를 처리하고 다음 두 가지 모두에서 데이터 카탈로그에 저장합니다.
    • 데이터 원본 검사 - 검사된 메타데이터가 Microsoft Purview 데이터 맵 추가됩니다.
    • 계보 연결 - 변환 리소스는 원본, 출력 및 활동에 대한 메타데이터를 Microsoft Purview 데이터 맵 추가합니다.

검색

데이터 원본이 Microsoft Purview 계정에 등록되면 다음 단계는 데이터 원본을 검사하는 것입니다. 검사 프로세스는 데이터 원본에 대한 연결을 설정하고 이름, 파일 크기, 열 등과 같은 기술 메타데이터를 캡처합니다. 또한 구조화된 데이터 원본에 대한 스키마를 추출하고, 스키마에 분류를 적용하고, Microsoft Purview 데이터 맵 Microsoft Purview 규정 준수 포털 연결된 경우 민감도 레이블을 적용합니다. 검사 프로세스는 즉시 실행되도록 트리거되거나 Microsoft Purview 계정을 최신 상태로 유지하기 위해 주기적으로 실행되도록 예약할 수 있습니다.

각 검사에는 전체 원본이 아닌 필요한 정보만 검사하도록 적용할 수 있는 사용자 지정이 있습니다.

검사에 대한 인증 방법 선택

Microsoft Purview는 기본적으로 안전합니다. 암호나 비밀은 Microsoft Purview에 직접 저장되지 않으므로 원본에 대한 인증 방법을 선택해야 합니다. Microsoft Purview 계정을 인증하는 방법에는 여러 가지가 있지만 각 데이터 원본에 대해 모든 메서드가 지원되는 것은 아닙니다.

  • 관리 ID
  • 서비스 주체
  • SQL 인증
  • Windows 인증
  • 역할 ARN
  • 위임된 인증
  • 소비자 키
  • 계정 키 또는 기본 인증

가능하면 개별 데이터 원본에 대한 자격 증명을 저장하고 관리할 필요가 없으므로 관리 ID가 기본 인증 방법입니다. 이렇게 하면 사용자와 팀이 검사에 대한 인증 설정 및 문제 해결에 소요되는 시간을 크게 줄일 수 있습니다. Microsoft Purview 계정에 관리 ID를 사용하도록 설정하면 Id가 Azure Active Directory에 만들어지고 계정의 수명 주기에 연결됩니다.

검사 범위 지정

원본을 검사할 때 전체 데이터 원본을 검사하거나 검사할 특정 엔터티(폴더/테이블)만 선택할 수 있습니다. 사용 가능한 옵션은 검사하는 원본에 따라 달라지며 일회성 검사와 예약된 검사 모두에 대해 정의할 수 있습니다.

예를 들어 Azure SQL 데이터베이스에 대한 검사를 만들고 실행할 때 검색할 테이블을 선택하거나 전체 데이터베이스를 선택할 수 있습니다.

각 엔터티(폴더/테이블)에 대해 완전히 선택되고, 부분적으로 선택되고, 선택되지 않은 세 가지 선택 상태가 있습니다. 아래 예제에서 폴더 계층 구조에서 "Department 1"을 선택하면 "Department 1"이 완전히 선택된 것으로 간주됩니다. "회사" 및 "예제"와 같은 "Department 1"의 부모 엔터티는 동일한 부모 아래에 다른 엔터티가 선택되지 않았기 때문에 부분적으로 선택된 것으로 간주됩니다(예: "Department 2"). 선택 상태가 다른 엔터티의 경우 UI에서 다른 아이콘이 사용됩니다.

검사 페이지 scope 보여 주는 스크린샷.

검사를 실행한 후에는 원본 시스템에 새 자산이 추가될 가능성이 높습니다. 검사를 다시 실행할 때 부모가 완전히 선택되거나 부분적으로 선택되면 기본적으로 특정 부모 아래의 미래 자산이 자동으로 선택됩니다. 위의 예제에서 "Department 1"을 선택하고 검사를 실행한 후 검색을 다시 실행할 때 "Department 1" 또는 "Company" 및 "example" 아래에 있는 모든 새 자산이 포함됩니다.

사용자가 부분적으로 선택된 부모 아래에서 새 자산에 대한 자동 포함을 제어할 수 있도록 토글 단추가 도입되었습니다. 기본적으로 토글은 꺼지고 부분적으로 선택된 부모에 대한 자동 포함 동작은 사용하지 않도록 설정됩니다. 토글이 꺼진 동일한 예제에서 "회사" 및 "예제"와 같이 부분적으로 선택된 부모 아래에 있는 새 자산은 검사를 다시 실행할 때 포함되지 않으며 "부서 1"의 새 자산만 향후 검사에 포함됩니다.

토글 단추가 꺼져 있는 검사 페이지 scope 보여 주는 스크린샷

토글 단추가 켜져 있으면 검사를 다시 실행할 때 부모가 완전히 선택되거나 부분적으로 선택되면 특정 부모 아래의 새 자산이 자동으로 선택됩니다. 포함 동작은 토글 단추가 도입되기 전과 동일합니다.

토글 단추가 켜져 있는 검사 페이지 scope 보여 주는 스크린샷

참고

  • 토글 단추의 가용성은 데이터 원본 형식에 따라 달라집니다. 현재 Azure Blob Storage, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Azure Files 및 Azure Dedicated SQL 풀(이전의 SQL DW)을 포함한 원본에 대한 공개 미리 보기에서 사용할 수 있습니다.
  • 토글 단추가 도입되기 전에 생성되거나 예약된 검사의 경우 토글 상태가 켜짐으로 설정되며 변경할 수 없습니다. 토글 단추가 도입된 후 생성되거나 예약된 검사의 경우 검색을 저장한 후에는 토글 상태를 변경할 수 없습니다. 토글 상태를 변경하려면 새 검사를 만들어야 합니다.
  • 토글 단추를 끄면 Azure Data Lake Storage Gen 2와 같은 스토리지 유형의 원본에 대해 검색 작업이 완료된 후 원본 유형별 찾아보기 환경을 완전히 사용할 수 있게 되기까지 최대 4시간이 걸릴 수 있습니다.

알려진 제한

토글 단추가 꺼져 있는 경우:

  • 부분적으로 선택된 부모 아래의 파일 엔터티는 검사되지 않습니다.
  • 부모 아래의 모든 기존 엔터티가 명시적으로 선택된 경우 부모는 완전히 선택된 것으로 간주되고 검사를 다시 실행할 때 부모 아래의 모든 새 자산이 포함됩니다.

검사 규칙 집합

검사 규칙 집합은 원본 중 하나에 대해 검색이 실행될 때 검색할 정보의 종류를 결정합니다. 사용 가능한 규칙은 검사하는 원본의 종류에 따라 달라지지만 검사해야 하는 파일 형식 및 필요한 분류 종류와 같은 항목 이 포함됩니다 .

많은 데이터 원본 형식에 대해 이미 사용할 수 있는 시스템 검사 규칙 집합이 있지만 사용자 고유의 검사 규칙 집합을 만들어 검사를 organization 맞게 조정할 수도 있습니다.

검사 예약

Microsoft Purview는 선택한 특정 시간에 매주 또는 매월 검사를 선택할 수 있습니다. 주별 검사는 개발 중이거나 자주 변경되는 구조가 있는 데이터 원본에 적합할 수 있습니다. 월별 검사는 자주 변경되지 않는 데이터 원본에 더 적합합니다. 가장 좋은 방법은 검사하려는 원본의 관리자와 협력하여 원본에 대한 컴퓨팅 요구가 낮은 시간을 식별하는 것입니다.

검사에서 삭제된 자산을 검색하는 방법

Microsoft Purview 카탈로그는 검사를 실행할 때만 데이터 저장소의 상태를 인식합니다. 카탈로그에서 파일, 테이블 또는 컨테이너가 삭제되었는지 확인하려면 마지막 검사 출력과 현재 검사 출력을 비교합니다. 예를 들어 Azure Data Lake Storage Gen2 계정을 마지막으로 검사했을 때 folder1이라는 폴더가 포함되어 있다고 가정합니다. 동일한 계정을 다시 검사하면 folder1 이 누락됩니다. 따라서 카탈로그는 폴더가 삭제되었다고 가정합니다.

삭제된 파일 검색

누락된 파일을 검색하는 논리는 동일한 사용자와 다른 사용자가 여러 클릭하여 검색하는 데 작동합니다. 예를 들어 사용자가 폴더 A, B 및 C의 Data Lake Storage Gen2 데이터 저장소에서 일회성 검사를 실행한다고 가정합니다. 나중에 동일한 계정의 다른 사용자가 동일한 데이터 저장소의 C, D 및 E 폴더에서 다른 일회성 검사를 실행합니다. C 폴더가 두 번 검사되었으므로 카탈로그는 삭제 가능한지 확인합니다. 그러나 A, B, D 및 E 폴더는 한 번만 검사되었으며 카탈로그는 삭제된 자산에 대해 검사 않습니다.

카탈로그에서 삭제된 파일을 유지하려면 정기적인 검사를 실행하는 것이 중요합니다. 카탈로그는 다른 검사가 실행될 때까지 삭제된 자산을 검색할 수 없으므로 검사 간격이 중요합니다. 따라서 특정 저장소에서 한 달에 한 번 검사를 실행하는 경우 카탈로그는 한 달 후에 다음 검사를 실행할 때까지 해당 저장소에서 삭제된 데이터 자산을 검색할 수 없습니다.

Data Lake Storage Gen2 같은 큰 데이터 저장소를 열거하는 경우 정보를 누락하는 여러 가지 방법(열거형 오류 및 삭제된 이벤트 포함)이 있습니다. 특정 검사에서 파일이 만들어지거나 삭제된 것을 놓칠 수 있습니다. 따라서 카탈로그가 특정 파일이 삭제되지 않는 한 카탈로그에서 삭제되지 않습니다. 이 전략은 스캔한 데이터 저장소에 없는 파일이 카탈로그에 여전히 존재하는 경우 오류가 발생할 수 있음을 의미합니다. 경우에 따라 삭제된 특정 자산을 catch하기 전에 데이터 저장소를 두세 번 스캔해야 할 수 있습니다.

참고

  • 삭제로 표시된 자산은 성공적으로 검사한 후 삭제됩니다. 삭제된 자산은 처리 및 제거되기 전에 일정 시간 동안 카탈로그에 계속 표시될 수 있습니다.
  • 현재 원본 삭제 검색은 Azure Databricks, Amazon Redshift, Cassandra, DB2, Erwin, Google BigQuery, Hive Metastore, Looker, MongoDB, MySQL, Oracle, PostgreSQL, Salesforce, SAP BW, SAP ECC, SAP HANA, SAP S/4HANA, Snowflake 및 Teradata 원본에 대해 지원되지 않습니다. 데이터 원본에서 개체를 삭제하면 후속 검사에서 Microsoft Purview에서 해당 자산을 자동으로 제거하지 않습니다.

섭취

수집은 다양한 프로세스를 통해 수집된 메타데이터로 데이터 맵을 채우는 프로세스입니다.

검사에서 수집

그런 다음, 검사 프로세스로 식별된 기술 메타데이터 또는 분류가 수집으로 전송됩니다. 수집은 검사에서 입력을 분석하고, 리소스 집합 패턴을 적용하고, 사용 가능한 계보 정보를 채웁니다. 그런 다음 데이터 맵을 자동으로 로드합니다. 자산/스키마는 수집이 완료된 후에만 검색하거나 큐레이팅할 수 있습니다. 따라서 검사가 완료되었지만 데이터 맵 또는 카탈로그에서 자산을 보지 못한 경우 수집 프로세스가 완료되기를 기다려야 합니다.

계보 연결에서 수집

Azure Data FactoryAzure Synapse 같은 리소스를 Microsoft Purview에 연결하여 데이터 원본 및 계보 정보를 Microsoft Purview 데이터 맵 가져올 수 있습니다. 예를 들어 Microsoft Purview에 연결된 Azure Data Factory 복사 파이프라인이 실행되면 입력 원본, 활동 및 출력 원본에 대한 메타데이터가 Microsoft Purview에서 수집되고 정보가 데이터 맵에 추가됩니다.

검사를 통해 데이터 원본이 데이터 맵에 이미 추가된 경우 활동에 대한 계보 정보가 기존 원본에 추가됩니다. 데이터 원본이 데이터 맵에 아직 추가되지 않은 경우 계보 수집 프로세스는 계보 정보를 사용하여 루트 컬렉션에 추가합니다.

사용 가능한 계보 연결에 대한 자세한 내용은 계보 사용자 가이드를 참조하세요.

다음 단계

자세한 내용이나 원본 검사에 대한 특정 지침은 아래 링크를 따르세요.