Microsoft Purview 검사 모범 사례

Microsoft Purview 거버넌스 솔루션은 온-프레미스, 다중 클라우드 및 SaaS(Software as a Service) 데이터 원본의 자동화된 검사를 지원합니다.

검사를 실행하면 등록된 데이터 원본에서 메타데이터를 수집하는 프로세스가 호출됩니다. 검사 및 큐레이션 프로세스가 끝날 때 큐레이팅된 메타데이터에는 기술 메타데이터가 포함됩니다. 이 메타데이터에는 테이블 이름 또는 파일 이름, 파일 크기, 열 및 데이터 계보와 같은 데이터 자산 이름이 포함될 수 있습니다. 구조화된 데이터 원본에 대한 스키마 세부 정보도 캡처됩니다. 관계형 데이터베이스 관리 시스템은 이러한 유형의 원본의 예입니다.

큐레이션 프로세스는 구성된 검사 규칙 집합에 따라 스키마 특성에 자동화된 분류 레이블을 적용합니다. 민감도 레이블은 Microsoft Purview 계정이 Microsoft Purview 규정 준수 포털 연결된 경우 적용됩니다.

중요

스토리지 계정에 대한 업데이트를 방지하는 Azure 정책이 있는 경우 Microsoft Purview의 검사 프로세스에 오류가 발생합니다. Microsoft Purview 예외 태그 가이드에 따라 Microsoft Purview 계정에 대한 예외를 만듭니다.

데이터 원본을 관리하는 모범 사례가 필요한 이유는 무엇인가요?

모범 사례를 통해 다음을 수행할 수 있습니다.

  • 비용을 최적화합니다.
  • 운영 우수성을 구축합니다.
  • 보안 규정 준수를 개선합니다.
  • 성능 효율성을 높입니다.

원본 등록 및 연결 설정

다음 디자인 고려 사항 및 권장 사항은 원본을 등록하고 연결을 설정하는 데 도움이 됩니다.

디자인 고려 사항

  • 컬렉션을 사용하여 지리적, 비즈니스 기능 또는 데이터 원본과 같은 organization 전략에 맞는 계층 구조를 만듭니다. 계층 구조는 등록 및 검사할 데이터 원본을 정의합니다.
  • 기본적으로 동일한 Microsoft Purview 계정에 데이터 원본을 여러 번 등록할 수 없습니다. 이 아키텍처는 동일한 데이터 원본에 다른 액세스 제어를 할당할 위험을 방지하는 데 도움이 됩니다.

디자인 권장 사항

  • 동일한 데이터 원본의 메타데이터가 여러 팀에서 사용되는 경우 부모 컬렉션에서 데이터 원본을 등록하고 관리할 수 있습니다. 그런 다음 각 하위 데이터 정렬에서 해당 검사를 만들 수 있습니다. 이러한 방식으로 관련 자산은 각 자식 컬렉션 아래에 표시됩니다. 부모가 없는 원본은 지도 보기의 점선 상자에 그룹화됩니다. 부모에 연결되는 화살표가 없습니다.

    부모 컬렉션에 등록된 데이터 원본이 있는 Microsoft Purview를 보여 주는 스크린샷

  • Azure 구독 또는 리소스 그룹과 같은 여러 원본을 클라우드에 등록해야 하는 경우 Azure 다중 옵션을 사용합니다. 자세한 내용은 다음 설명서를 참조하세요.

  • 데이터 원본을 등록한 후 여러 팀 또는 사업부에서 동일한 원본을 다르게 사용하는 경우 동일한 원본을 여러 번 검색할 수 있습니다.

데이터 원본을 등록하기 위한 계층 구조를 정의하는 방법에 대한 자세한 내용은 컬렉션 아키텍처에 대한 모범 사례를 참조하세요.

검색

다음 디자인 고려 사항 및 권장 사항은 검사 프로세스와 관련된 주요 단계에 따라 구성됩니다.

디자인 고려 사항

  • 데이터 원본이 등록되면 검색을 설정하여 자동화되고 안전한 메타데이터 검사 및 큐레이션을 관리합니다.
  • 검사 설정에는 검사 이름 구성, 검사 scope, 통합 런타임, 검사 트리거 빈도, 검사 규칙 집합 및 검색 빈도당 각 데이터 원본에 대해 고유하게 리소스 집합이 포함됩니다.
  • 자격 증명을 만들기 전에 데이터 원본 형식 및 네트워킹 요구 사항을 고려합니다. 이 정보는 시나리오에 필요한 인증 방법 및 통합 런타임을 결정하는 데 도움이 됩니다.

디자인 권장 사항

관련 컬렉션에 원본을 등록한 후 검사를 설정할 때 여기에 표시된 순서를 계획하고 따릅니다. 이 프로세스 순서는 예기치 않은 비용과 재작업을 방지하는 데 도움이 됩니다.

검사를 준비하는 동안 따라야 할 순서를 보여 주는 스크린샷.

  1. 시스템 기본 제공 분류 규칙에서 분류 요구 사항을 식별합니다. 또는 필요에 따라 특정 사용자 지정 분류 규칙을 만들 수 있습니다. 기본으로 사용할 수 없는 특정 산업, 비즈니스 또는 지역 요구 사항을 기반으로 합니다.

  2. 검사를 구성하기 전에 검사 규칙 집합을 만듭니다.

    데이터 맵 아래의 검사 규칙 집합을 보여 주는 스크린샷

    검사 규칙 집합을 만들 때 다음 사항을 확인합니다.

    • 시스템 기본 검사 규칙 집합이 검사되는 데이터 원본에 충분한지 확인합니다. 그렇지 않으면 사용자 지정 검사 규칙 집합을 정의합니다.

    • 사용자 지정 검사 규칙 집합에는 시스템 기본값과 사용자 지정이 모두 포함될 수 있으므로 검사 중인 데이터 자산과 관련이 없는 옵션을 지웁니다.

    • 필요한 경우 사용자 지정 규칙 집합을 만들어 원치 않는 분류 레이블을 제외합니다. 예를 들어 시스템 규칙 집합에는 미국 아니라 지구에 대한 일반 정부 코드 패턴이 포함됩니다. 데이터는 "벨기에 운전 면허증 번호"와 같은 다른 유형의 패턴과 일치할 수 있습니다.

    • 사용자 지정 분류 규칙을 가장 중요 하고 관련 있는 레이블로 제한하여 혼란을 방지합니다. 자산에 태그가 지정된 레이블이 너무 많지 않도록 합니다.

    • 사용자 지정 분류 또는 검사 규칙 집합을 수정하면 전체 검사가 트리거됩니다. 재작업 및 비용이 많이 드는 전체 검사를 방지하기 위해 분류 및 검사 규칙 집합을 적절하게 구성합니다.

      사용자 지정 검사 규칙 집합을 만들 때 관련 분류 규칙을 선택하는 옵션을 보여 주는 스크린샷

      참고

      스토리지 계정을 검색할 때 Microsoft Purview는 정의된 패턴 집합을 사용하여 자산 그룹이 리소스 집합을 구성하는지 여부를 확인합니다. 리소스 집합 패턴 규칙을 사용하여 Microsoft Purview가 리소스 집합으로 그룹화된 자산을 검색하는 방법을 사용자 지정하거나 재정의할 수 있습니다. 규칙은 또한 자산이 카탈로그 내에 표시되는 방법을 결정합니다. 자세한 내용은 리소스 집합 패턴 규칙 만들기를 참조하세요. 이 기능에는 비용 고려 사항이 있습니다. 자세한 내용은 가격 책정 페이지를 참조하세요.

  3. 등록된 데이터 원본에 대한 검사를 설정합니다.

    • 검사 이름: 기본적으로 Microsoft Purview는 SCAN-[A-Z][a-z][a-z]라는 명명 규칙을 사용합니다. 이는 실행한 검사를 식별하려고 할 때 유용하지 않습니다. 의미 있는 명명 규칙을 사용해야 합니다. instance 검사 환경-source-frequency-time의 이름을 DEVODS-Daily-0200으로 지정할 수 있습니다. 이 이름은 0200시간의 일일 검사를 나타냅니다.

    • 인증: Microsoft Purview는 원본 유형에 따라 데이터 원본을 검사하기 위한 다양한 인증 방법을 제공합니다. Azure 클라우드 또는 온-프레미스 또는 타사 원본일 수 있습니다. 이 기본 설정 순서대로 인증 방법에 대한 최소 권한 원칙을 따릅니다.

      • Microsoft Purview MSI - 관리 서비스 ID(예: Azure Data Lake Storage Gen2 원본의 경우)
      • 사용자가 할당한 관리 ID
      • 서비스 사용자
      • SQL 인증(예: 온-프레미스 또는 Azure SQL 원본의 경우)
      • 계정 키 또는 기본 인증(예: SAP S/4HANA 원본의 경우)

      자세한 내용은 자격 증명 관리 방법 가이드를 참조하세요.

      참고

      스토리지 계정에 대해 방화벽을 사용하도록 설정한 경우 검사를 설정할 때 관리 ID 인증 방법을 사용해야 합니다. 새 자격 증명을 설정할 때 자격 증명 이름에는 문자, 숫자, 밑줄 및 하이픈만 포함될 수 있습니다.

    • 통합 런타임

      • 자세한 내용은 네트워크 아키텍처 모범 사례를 참조하세요.
      • SHIR(자체 호스팅 통합 런타임)이 삭제되면 SHIR을 사용하는 모든 진행 중인 검사가 실패합니다.
      • SHIR을 사용하는 경우 메모리가 검사되는 데이터 원본에 충분한지 확인합니다. 예를 들어 SAP 원본을 검사하는 데 SHIR을 사용하는 경우 "메모리 부족 오류"가 표시되는 경우:
        • SHIR 컴퓨터에 충분한 메모리가 있는지 확인합니다. 권장 금액은 128GB입니다.
        • 검사 설정에서 사용 가능한 최대 메모리를 적절한 값(예: 100)으로 설정합니다.
        • 자세한 내용은 SAP ECC Microsoft Purview에 대한 검사 및 관리의 필수 구성 요소를 참조하세요.
    • 범위 검사

      • 검사에 대한 scope 설정할 때 세분화된 수준 또는 부모 수준에서 관련된 자산만 선택합니다. 이 방법을 사용하면 검사 비용이 최적이고 성능이 효율적입니다. 부모가 완전히 또는 부분적으로 확인되면 특정 부모 아래의 모든 미래 자산이 자동으로 선택됩니다.

      • 일부 데이터 원본에 대한 몇 가지 예는 다음과 같습니다.

        • Azure SQL 데이터베이스 또는 Data Lake Storage Gen2 경우 데이터 원본의 특정 부분에 검사를 scope 수 있습니다. 목록에서 폴더, 하위 폴더, 컬렉션 또는 스키마와 같은 적절한 항목을 선택합니다.
        • Oracle, Hive Metastore 데이터베이스 및 Teradata 원본의 경우 SQL LIKE 식을 사용하여 세미콜론으로 구분된 값 또는 스키마 이름 패턴을 통해 내보낼 특정 스키마 목록을 지정할 수 있습니다.
        • Google Big 쿼리의 경우 세미콜론으로 구분된 값을 통해 내보낼 특정 데이터 세트 목록을 지정할 수 있습니다.
        • 전체 AWS 계정에 대한 검사를 만들 때 검사할 특정 버킷을 선택할 수 있습니다. 특정 AWS S3 버킷에 대한 검사를 만들 때 검사할 특정 폴더를 선택할 수 있습니다.
        • Erwin의 경우 세미콜론으로 구분된 Erwin 모델 로케이터 문자열 목록을 제공하여 검사를 scope 수 있습니다.
        • Cassandra의 경우 내보낼 특정 키 공간 목록은 세미콜론으로 구분된 값이나 SQL LIKE 식을 사용하여 키 공간 이름 패턴을 통해 지정할 수 있습니다.
        • Looker의 경우 세미콜론으로 구분된 Looker 프로젝트 목록을 제공하여 검사를 scope 수 있습니다.
        • Power BI 테넌트에서 개인 작업 영역을 포함할지 제외할지 여부만 지정할 수 있습니다.

        검사를 구성하는 동안 검사를 scope 옵션을 보여 주는 스크린샷

      • 일반적으로 와일드카드(예: 데이터 레이크)를 기반으로 지원되는 "무시 패턴"을 사용하여 임시, 구성 파일, RDBMS 시스템 테이블 또는 백업 또는 STG 테이블을 제외합니다.

      • 문서 또는 구조화되지 않은 데이터를 스캔할 때는 많은 수의 문서를 검사하지 마십시오. 검사는 이러한 문서의 처음 20MB를 처리하며 검사 기간이 길어질 수 있습니다.

    • 검사 규칙 집합

      • 검사 규칙 집합을 선택하는 경우 이전에 만든 관련 시스템 또는 사용자 지정 검사 규칙 집합을 구성해야 합니다.
      • 사용자 지정 파일 형식을 만들고 그에 따라 세부 정보를 입력할 수 있습니다. 현재 Microsoft Purview는 사용자 지정 구분 기호에서 하나의 문자만 지원합니다. 실제 데이터에서 ~와 같은 사용자 지정 구분 기호를 사용하는 경우 새 검사 규칙 집합을 만들어야 합니다.

      검사를 구성하는 동안 검사 규칙 집합 선택을 보여 주는 스크린샷.

    • 검사 유형 및 일정

      • 전체 또는 증분 검사를 실행하도록 검사 프로세스를 구성할 수 있습니다.
      • 비사업 또는 사용량이 많은 시간에 검사를 실행하여 원본에 대한 처리 오버로드를 방지합니다.
      • 에서의 시작 되풀이일정 검사 시간보다 1분 이상 낮아야 합니다. 그렇지 않으면 다음 되풀이에서 검사가 트리거됩니다.
      • 초기 검사는 전체 검사이며 모든 후속 검사는 증분입니다. 후속 검사는 주기적인 증분 검사로 예약할 수 있습니다.
      • 검사 빈도는 데이터 원본 또는 비즈니스 요구 사항의 변경 관리 일정에 맞춰야 합니다. 예를 들면
        • 원본 구조가 잠재적으로 매주 변경될 수 있는 경우 검사 빈도가 동기화되어 있어야 합니다. 변경 내용에는 추가, 수정 또는 삭제된 자산 내의 새 자산 또는 필드가 포함됩니다.
        • 분류 또는 민감도 레이블이 주 단위로 최신 상태여야 하는 경우 규제상의 이유로 검사 빈도는 매주여야 합니다. 예를 들어 파티션 파일이 원본 데이터 레이크에 매주 추가되는 경우 월별 검사를 예약할 수 있습니다. 메타데이터가 변경되지 않으므로 주간 검사를 예약할 필요가 없습니다. 이 제안에서는 새 분류 시나리오가 없다고 가정합니다.
        • 스캔이 생성된 날에 실행되도록 예약하는 경우 시작 시간은 검사 시간 1분 이상 전이어야 합니다.
        • 메모리 문제로 인해 검사가 실행될 수 있는 최대 기간은 7일입니다. 이 기간은 수집 프로세스를 제외합니다. 7일 후에 진행률이 업데이트되지 않은 경우 검사에 실패한 것으로 표시됩니다. 현재 카탈로그로 수집 프로세스에는 이러한 제한이 없습니다.
    • 검사 취소

      • 현재 검사를 트리거한 후 검사의 상태 "진행 중" 상태에서 "대기 중"으로 전환된 경우에만 검사를 취소하거나 일시 중지할 수 있습니다.
      • 개별 자식 검사 취소는 지원되지 않습니다.

주의할 사항

  • 검사가 실행된 후 필드 또는 열, 테이블 또는 파일이 원본 시스템에서 제거된 경우 다음 예약된 전체 또는 증분 검사 후에만 Microsoft Purview에 반영(제거)됩니다.
  • 자산 이름 아래의 삭제 아이콘을 사용하여 Microsoft Purview 카탈로그에서 자산을 삭제 할 수 있습니다. 이 작업은 원본의 개체를 제거하지 않습니다. 동일한 원본에서 전체 검사를 실행하면 카탈로그에서 다시 수집됩니다. 대신 매주 또는 월별 검사를 예약한 경우(증분) 삭제된 자산은 원본에서 개체를 수정하지 않는 한 선택되지 않습니다. 예를 들어 열이 테이블에서 추가되거나 제거되는 경우입니다.
  • Microsoft Purview 거버넌스 포털을 통해 데이터 자산 또는 기본 스키마를 수동으로 편집한 후 후속 검사의 동작을 이해하려면 카탈로그 자산 세부 정보를 참조하세요.
  • 자세한 내용은 자산을 보고 편집하고 삭제하는 방법에 대한 자습서를 참조하세요.

다음 단계

데이터 원본 관리