다음을 통해 공유


클라우드 규모 분석을 위한 Microsoft Purview 배포 모범 사례

데이터 관리 랜딩 존은 클라우드 규모 분석 플랫폼의 거버넌스를 담당합니다. 대부분의 데이터 관리 기능을 제공하기 위해 Microsoft Purview를 사용합니다.

참고 항목

이 섹션의 이 지침에서는 클라우드 규모 분석과 관련된 구성에 대해 설명합니다. Microsoft Purview를 사용하여 데이터 거버넌스를 향상시키는 Azure 모범 사례의 컬렉션입니다. 지침은 공식 Microsoft Purview 설명서를 보완합니다.

개요

Microsoft Purview는 온-프레미스, 다중 클라우드 및 SaaS(Software-as-a-Service) 데이터를 관리 및 제어하는 데 도움이 되는 통합 데이터 거버넌스 서비스입니다. 자동화된 데이터 검색, 중요한 데이터 분류 및 엔드투엔드 데이터 계보를 통해 데이터 환경에 대한 전체적인 최신 맵을 만들 수 있습니다. 데이터 큐레이터가 데이터 자산을 관리하고 보호할 수 있습니다. 데이터 소비자가 중요하고 신뢰할 수 있는 데이터를 찾을 수 있도록 합니다.

선택한 타사 도구를 사용하여 현재 Microsoft Purview에서 지원하지 않는 데이터 관리 랜딩 존의 나머지 기능을 Azure와 통합하는 것이 좋습니다.

하나의 Microsoft Purview 계정은 중앙 집중식 데이터 카탈로그 역할을 하는 데이터 관리 랜딩 존 내에 배포됩니다. 데이터 관리 랜딩 존에서 Microsoft Purview는 데이터 관리, 데이터 랜딩 존 및 자체 호스팅 통합 런타임에서 VNet 피어링을 사용하여 개인 네트워크 연결을 통해 각 데이터 랜딩 존과 통신할 수 있습니다. 자체 호스팅 통합 런타임을 더 많이 배포하면 온-프레미스 데이터 저장소 및 기타 퍼블릭 클라우드에서 데이터 제품을 검색할 수 있습니다.

계정 설정

첫 번째 단계는 Microsoft Purview 계정 배포입니다. 데이터 관리 랜딩 존을 배포하는 동안 단일 Microsoft Purview 계정이 데이터 관리 구독 내에 자동으로 배포됩니다. 목표는 전체 데이터 맵을 모든 데이터 랜딩 존에서 단일 Microsoft Purview 계정으로 중앙 집중화하는 것입니다. 환경 유형별로 데이터 관리 랜딩 존 구독 내에서 공유된 단일 Microsoft Purview 계정을 고려하는 것이 좋습니다.

Microsoft Purview 계정 외에도 관리되는 리소스 그룹도 배포됩니다. 관리 스토리지 계정과 관리 Event Hubs 네임스페이스는 이 리소스 그룹 내에 배포되며 검사로 인해 데이터 자산 메타데이터를 수집하는 데 사용됩니다. 이러한 리소스는 Microsoft Purview 카탈로그에서 사용하므로 제거하면 안 됩니다. 배포 시 리소스 그룹 수준에서 모든 보안 주체에 대해 Azure 역할 기반 액세스 제어 RBAC 거부 할당이 자동으로 추가됩니다.

필수 조건

배포하기 전에 데이터 관리 랜딩 존 구독 내에서 다음 요구 사항을 검토합니다.

  • 정책 예외 설정: 관리자 또는 애플리케이션이 Azure Storage 계정, Azure Event Hubs 네임스페이스, Microsoft Purview 계정, Azure 프라이빗 DNS 영역 또는 Azure 프라이빗 엔드포인트를 만들지 못하도록 하는 기존 Azure Policy 할당이 있는 경우 Azure Policy 예외를 적용해야 합니다. 예외가 필요하므로 Microsoft Purview 배포와 함께 필요한 리소스를 데이터 관리 랜딩 존에 배포할 수 있습니다.
  • 리소스 공급자 등록: 데이터 관리 랜딩 존 구독에 다음 Azure 리소스 공급자를 등록해야 합니다.
    • Microsoft.EventHub
    • Microsoft.Purview
    • Microsoft.Storage

Important

Microsoft Purview를 사용하여 데이터 관리 랜딩 존을 성공적으로 배포하려면 필수 조건이 충족되어야 합니다. 리소스 공급자를 등록하는 방법에 대한 자세한 내용은 Azure 서비스용 리소스 공급자를 참조하세요.

네트워킹 및 이름 확인

클라우드 규모 분석은 Azure 프라이빗 엔드포인트를 사용하여 Azure Private Link에서 제공하는 카탈로그에 대한 보안 액세스를 사용하도록 설정합니다. 프라이빗 엔드포인트는 Microsoft Purview 계정에 대한 VNet 주소 공간의 IP 주소를 사용합니다. VNet과 Microsoft Purview 계정의 클라이언트 간 네트워크 트래픽은 VNet과 Microsoft 백본 네트워크의 Private Link를 가로지릅니다. VNet 및 Private Link는 공용 인터넷에서 노출을 제거합니다. 엔드투엔드 검사 시나리오에 대해 네트워크 격리를 사용하도록 설정하기 위해 더 많은 프라이빗 엔드포인트가 배포됩니다. 프라이빗 엔드포인트를 사용하면 Azure의 데이터 원본과 온-프레미스 원본을 Azure Private Link를 통해 연결할 수 있습니다.

Azure 프라이빗 엔드포인트 배포

Microsoft Purview 계정은 여러 프라이빗 엔드포인트가 있는 데이터 관리 랜딩 존 내의 Azure VNet(가상 네트워크) 내에 배포됩니다.

  • 계정: 프라이빗 엔드포인트는 개인 네트워크 내에서 시작된 Microsoft Purview에 대한 클라이언트 호출만 허용하는 데 사용됩니다. 이는 포털 프라이빗 엔드포인트의 필수 조건으로 필요합니다.

  • 포털: 프라이빗 엔드포인트는 Microsoft Purview 가버넌스 포털에 대한 프라이빗 연결을 제공하기 위한 것입니다. Microsoft Purview 거버넌스 포털은 웹 브라우저에서 Microsoft Purview에 액세스하고 관리할 수 있는 관리 사용자 인터페이스입니다.

  • 프라이빗 연결을 통해 Azure Virtual Network 내부의 Azure IaaS 및 PaaS 데이터 원본과 온-프레미스 데이터 원본을 검사하기 위한 프라이빗 엔드포인트를 수집합니다. 이 방법은 데이터 원본에서 Microsoft Purview 데이터 맵으로 이동하는 메타데이터의 네트워크 격리를 보장합니다.

Diagram of Microsoft Purview Networking.

Important

Microsoft Purview에서 데이터 원본을 성공적으로 검사하려면 Microsoft Purview 수집 프라이빗 엔드포인트가 배포된 동일한 가상 네트워크 내부에 자체 호스팅 통합 런타임을 배포해야 합니다. 이는 데이터 관리 랜딩 존 또는 데이터 랜딩 존 내부에 있을 수 있습니다.

데이터 관리 랜딩 존 네트워킹에 대한 자세한 내용은 클라우드 규모 분석 네트워킹을 참조하세요.

Microsoft Purview 프라이빗 엔드포인트에 대한 자세한 내용은 Microsoft Purview 계정에 프라이빗 엔드포인트 사용을 참조하세요.

계정 및 포털용 프라이빗 엔드포인트

Microsoft Purview를 사용하여 데이터 자산을 관리하고 Microsoft Purview 가버넌스 포털에 연결하려면 프라이빗 연결을 사용해야 합니다. 공용 액세스는 보안을 추가하기 위해 데이터 관리 랜딩 존 내에 배포된 Microsoft Purview 계정으로 제한됩니다. 계정포털 프라이빗 엔드포인트가 배포되어 Microsoft Purview 계정에 프라이빗 연결을 제공하고 Microsoft Purview 가버넌스 포털에 액세스할 수 있습니다.

Microsoft Purview 거버넌스 포털 액세스

프라이빗 연결을 통해 Microsoft Purview 포털의 사용을 유지하려면 Microsoft Purview 설정에서 공용 네트워크 액세스를 거부하는 것이 좋습니다. Microsoft Purview 거버넌스 포털에 연결하려면 네트워크 내부에 배포된 점프 머신 또는 점프 박스가 필요합니다. 하이브리드 네트워크의 컴퓨터를 사용하거나 데이터 관리 랜딩 존 내부의 가상 머신으로 사용할 수 있습니다. 점프 머신은 일반적으로 Microsoft의 원격 데스크톱 서비스 또는 SSH(Secure Shell) 소프트웨어를 사용하는 강화된 원격 액세스 서버입니다. 점프 머신은 모든 관리 작업이 전용 호스트에서 수행되는 중요한 컴퓨터에 액세스하는 관리자를 위한 발판 역할을 합니다.

Microsoft Purview 거버넌스 포털을 통해 Microsoft Purview를 사용하여 데이터를 관리하려면 다음 옵션을 사용합니다.

  • 옵션 1: 회사 네트워크에 연결된 점프 머신을 사용합니다. 이 연결 모델을 사용하려면 Microsoft Purview 포털 프라이빗 엔드포인트가 만들어지는 VNet과 회사 네트워크 간에 연결이 있어야 합니다.

    네트워크 토폴로지 및 연결 개요에 대한 자세한 내용은 클라우드 채택 프레임워크 네트워킹을 검토하세요.

  • 옵션 2: 조직에서 하이브리드 연결을 사용할 수 없는 경우 데이터 관리 랜딩 존 내에 가상 머신을 배포합니다. 보안 연결을 사용하여 Microsoft Purview에 연결하려면 Azure Bastion을 배포합니다.

수집을 위한 프라이빗 엔드포인트

Microsoft Purview는 프라이빗 또는 공용 엔드포인트를 사용하여 Azure 또는 온-프레미스 환경에서 데이터 원본을 검사할 수 있습니다. 데이터 랜딩 존의 네트워크는 데이터 관리 랜딩 존 VNet 및 연결 구독 VNet과 자동으로 피어링됩니다. 따라서 프라이빗 연결을 사용하여 데이터 랜딩 존 내부의 데이터 원본을 검사할 수 있습니다.

다른 랜딩 존 내의 데이터 원본에 대해 프라이빗 엔드포인트를 사용하도록 설정하고 프라이빗 연결을 사용하여 데이터 원본을 검사하는 것이 좋습니다.

이름 확인

프라이빗 엔드포인트에 대한 DNS 확인은 중앙 Azure 프라이빗 DNS 영역을 통해 처리되어야 합니다. 다음 프라이빗 DNS 영역은 데이터 관리 랜딩 존의 Microsoft Purview 배포에 자동으로 배포됩니다.

  • privatelink.purview.azure.com
  • privatelink.purviewstudio.azure.com
  • privatelink.blob.core.windows.net
  • privatelink.queue.core.windows.net
  • privatelink.servicebus.windows.net

Diagram of high Level name resolution architecture.

하이브리드 클라우드가 있고 프레미스 간 이름 확인이 필요한 경우 Azure의 사용자 지정 DNS 서버에 적절한 요청을 전달하도록 온-프레미스 DNS 서버를 올바르게 구성하는 것이 중요합니다.

  • Azure에 사용자 지정 DNS가 이미 있는 경우 이를 가리키는 온-프레미스 DNS 서버에 조건부 전달자를 설정해야 합니다.

  • Azure에 사용자 지정 DNS VM이 없는 경우 DNS 요청을 Azure 제공 DNS IP 168.63.129.16으로 전달하도록 이미 구성된 NGINX가 포함된 Azure 가상 머신 확장 집합을 배포할 수 있습니다. 자세한 내용은 기존 가상 네트워크에 NGINX DNS 프록시의 가상 머신 확장 집합 배포를 참조하세요.

데이터 관리 랜딩 존과 데이터 랜딩 존 간의 이름 확인을 허용하려면 데이터 관리 랜딩 존 내의 {prefix}-global-dns 리소스 그룹 내에 있는 동일한 프라이빗 DNS 영역을 사용합니다.

클라우드 규모 분석 네트워킹 및 이름 확인과 관련된 자세한 내용은 클라우드 규모 분석 네트워킹을 참조하세요.

Microsoft Purview에서 데이터 원본에 대한 인증 관리

Microsoft Purview에서 데이터 원본을 등록하고 검사하려면 컨트롤 플레인데이터 평면에 대한 액세스 권한이 필요합니다.

데이터 원본 등록

Microsoft Purview 계정을 배포하면 시스템 할당 관리 ID가 자동으로 만들어집니다. Microsoft Entra 테넌트에서 만들어지고 이 리소스에 할당됩니다. Microsoft Purview에서 데이터 원본을 등록할 때 구독 또는 리소스 그룹에서 Azure 리소스를 읽고 나열하려면 Microsoft Purview 관리 ID에 범위에 대한 Azure RBAC 읽기 권한자 역할이 필요합니다.

다음 데이터 원본을 Microsoft Purview에 등록하기 전에 각 데이터 랜딩 존 구독의 Microsoft Purview 관리 ID에 읽기 권한자 역할을 할당하는 것이 좋습니다.

  • Azure Blob Storage
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Azure SQL Database
  • Azure SQL Managed Instance
  • Azure Synapse Analytics

데이터 원본 검사

새 검사를 실행하기 전에 다음 요구 사항을 완료했는지 확인합니다.

자체 호스팅 통합 런타임 배포 및 등록

각 데이터 랜딩 존에 대해 자체 호스팅 IR(통합 런타임) VM을 배포하고 등록합니다. 자체 호스팅 IR은 Azure SQL Database 또는 VM 기반 데이터 원본과 같은 데이터 원본을 검사하는 데 필요합니다. 이러한 데이터 원본은 온-프레미스 또는 각 데이터 랜딩 존에 있을 수 있습니다. 자체 호스팅 IR은 클라우드 데이터 저장소와 개인 네트워크의 데이터 저장소 간에 복사 작업을 실행할 수 있습니다. 또한 온-프레미스 네트워크 또는 Azure 가상 네트워크의 컴퓨팅 리소스에 대해 변환 작업을 디스패치할 수 있습니다. 자체 호스팅 IR을 설치하려면 온-프레미스 머신이나 개인 네트워크 내부의 가상 머신이 필요합니다.

IR을 호스팅하는 전용 컴퓨터를 사용하는 것이 좋습니다. 컴퓨터는 데이터 저장소를 호스팅하는 서버와 분리되어야 합니다. 또한 각 데이터 랜딩 존 또는 온-프레미스 환경에서 최소 2개의 자체 호스팅 IR VM을 계획하는 것이 좋습니다.

온-프레미스 데이터 원본을 검사하려면 자체 호스팅 IR을 온-프레미스 네트워크 내에 배포할 수 있지만, Azure에 있는 데이터 원본을 검사하려면 자체 호스팅 IR을 Microsoft Purview 수집 프라이빗 엔드포인트와 동일한 VNet에 배포해야 합니다. 데이터 원본이 있는 지역별로 새로운 수집 프라이빗 엔드포인트와 새로운 자체 호스팅 IR을 배포하는 것이 좋습니다.

증가하는 동시 워크로드를 호스트할 수 있습니다. 또는 현재 워크로드 수준에서 더 높은 성능을 달성하길 원할 수 있습니다. 다음 방법 중 하나를 사용하여 처리 규모를 향상할 수 있습니다.

  • 노드의 프로세서와 메모리가 충분히 사용되지 않을 때 스케일 업
  • 노드 또는 가상 머신 확장 집합을 더 추가하여 자체 호스팅 IR을 스케일 아웃

데이터 원본을 검사하기 위해 데이터 평면에 대한 액세스 할당

데이터 평면 및 데이터 원본에서 Microsoft Purview에 대한 액세스를 제공하기 위해 인증을 설정하는 여러 옵션이 있습니다.

  • 옵션 1: 관리 ID
  • 옵션 2: Azure Key Vault에 비밀로 저장된 계정 키 또는 암호
  • 옵션 3: Azure Key Vault에 보안 비밀로 저장된 서비스 주체

Important

Microsoft Purview에서 Azure Private Link를 통해 데이터 원본을 검색하려면 자체 호스팅 통합 런타임을 배포하고 데이터 원본에 대한 인증 옵션에서 계정 키/SQL 인증 또는 서비스 주체를 사용해야 합니다.

데이터 원본에서 Azure Private Link를 사용할 수 없는 경우 Microsoft Purview 관리 ID를 사용하여 데이터 원본을 검사하는 것이 좋습니다. 이 경우 Microsoft Purview 계정 방화벽 설정에 대한 공용 액세스를 허용해야 합니다.

Azure Key Vault에 비밀 저장

여러 Azure Key Vault 리소스는 데이터 관리 랜딩 존 및 데이터 랜딩 존 구독 내에 배포됩니다. Azure Key Vault 리소스는 데이터 관리 랜딩 존 및 데이터 원본의 메타데이터 데이터 원본과 관련된 비밀을 저장합니다. 데이터 원본의 예로 Azure Data Factory에서 사용하는 Azure SQL Database가 있습니다. 또는 데이터 방문 영역의 Databricks 작업 영역에서 사용하는 Azure Database for MySQL입니다.

Microsoft Purview 계정에 데이터 랜딩 존 Azure Key Vault 연결

Microsoft Purview는 Azure Key Vault에 저장된 비밀과 자격 증명을 사용할 수 있습니다. Microsoft Purview 계정 내에서 Azure Key Vault 연결을 만들고 비밀을 등록한 경우에만 사용할 수 있습니다. 새 데이터 랜딩 존을 추가한 후 Microsoft Purview 계정 내에 새 Azure Key Vault 연결을 만들어야 합니다. 연결은 Azure Key Vault 리소스와 Microsoft Purview 계정의 일대일 연결입니다. Azure Key Vault에 저장된 비밀을 기반으로 Microsoft Purview 계정 내에서 자격 증명을 만들 수 있습니다.

자세한 내용은 Microsoft Purview 계정에서 Azure Key Vault 연결 만들기를 참조하세요.

사용하지 않는 Azure Key Vault를 제거하여 Key Vault 연결을 최소화합니다.

Microsoft Purview 내에서 자격 증명 만들기

특정 시나리오의 경우 키 자격 증명 모음 비밀을 사용하여 자격 증명을 설정해야 할 수 있습니다.

  • Microsoft Purview 관리 ID를 인증 방법으로 사용할 수 없는 데이터 원본을 검사합니다.
  • 자체 호스팅 통합 런타임을 사용하여 데이터 원본을 검사하려면 계정 키, SQL 인증(암호) 또는 서비스 주체와 같은 지원되는 인증 유형을 자격 증명에 저장해야 합니다.
  • 데이터 수집을 위해 프라이빗 엔드포인트를 사용하여 데이터 원본을 검사합니다.
  • 가상 머신 내부 또는 온-프레미스 환경 내부에 있는 데이터 원본을 검사합니다.

Microsoft Purview에서 자격 증명을 만들기 전에 Microsoft Purview 계정에 Azure Key Vault 비밀에 대한 액세스 권한이 있어야 합니다. Azure Key Vault 액세스 정책 또는 RBAC(역할 기반 액세스 제어)를 사용하여 Microsoft Purview MSI(관리되는 서비스 ID)에 필요한 액세스 권한을 부여합니다. Microsoft Purview MSI에 Azure Key Vault에 대한 액세스 권한을 부여하고 Microsoft Purview 내에서 자격 증명을 만드는 방법에 대한 자세한 내용은 Microsoft Purview에서 원본 인증을 위한 자격 증명을 참조하세요.

Microsoft Purview 역할 및 액세스 제어

Microsoft Purview에는 데이터 읽기 권한자, 데이터 큐레이터, 컬렉션 관리자, 데이터 원본 관리자 및 정책 작성자와 같은 몇 가지 기본 제공 역할이 있어 더 많은 권한을 제공하기 위해 결합할 수 있는 데이터 평면을 관리할 수 있습니다. 예를 들어 데이터 읽기 권한자 역할은 데이터 자산에 대한 읽기 전용 액세스 권한이 필요한 데이터 책임자, 데이터 관리자 및 최고 보안 책임자와 같은 역할을 대상으로 합니다. 데이터 자산에는 분류, 검색 옵션을 통한 계보 및 Microsoft Purview에서 사용할 수 있는 보고서가 포함될 수 있습니다.

데이터 관리 랜딩 존 배포가 완료되면 최소 권한 모델을 사용하여 Microsoft Purview에서 메타데이터를 보거나 관리할 수 있는 액세스 권한을 제공합니다.

Important

Microsoft Purview 데이터 평면 역할은 Microsoft Purview 가버넌스 포털 내에서 또는 API를 직접 사용하여 관리해야 합니다.

Microsoft Purview 역할에 대한 자세한 내용은 Microsoft Purview의 데이터 평면에서 액세스 제어를 참조하세요.

클라우드 규모 분석 배포에 포함되는 다음 사용자 목록을 검토합니다. 배포 성공에 기여할 수 있도록 관련 Microsoft Purview 역할을 할당합니다.

가상 사용자 역할 권장되는 Microsoft Purview 역할
제품 소유자 제품 소유자는 Azure를 사용하여 솔루션을 혁신하고 비즈니스에 민첩성을 부여하며 업무 프로세스를 최적화합니다. 데이터 읽기 권한자
솔루션 아키텍트 엔터프라이즈 비즈니스 네트워크의 경계를 넘어 추진할 솔루션을 정의합니다. Azure 서비스의 진단, 분석, 설계, 배포 및 통합을 처리하는 방법을 알아봅니다.
  • 데이터 원본 관리
  • 데이터 큐레이터
  • 개발자 및 DevOps 엔지니어 Azure DevOps 또는 GitHub를 사용하여 연속 통합 및 제공 프로세스를 설계, 빌드, 배포, 테스트 및 유지 관리합니다. 해당 없음
    보안 엔지니어 팀이 모범 사례를 사용하여 Azure에서 보안 인프라를 설계하고 구현할 수 있도록 합니다.
  • 컬렉션 관리
  • 데이터 읽기 권한자
  • 기술 및 비즈니스 관리자 Azure 서비스에 대한 전반적인 이해를 빌드합니다. 클라우드 비용을 제어하고 운영과 팀의 민첩성을 최적화합니다. 해당 없음
    의사 결정권자 및 비즈니스 사용자 Azure를 사용하여 실행 가능한 인사이트에 액세스하고 가장 관련성이 높은 형식으로 제공될 것으로 예상합니다. 기존 솔루션에 포함된 AI를 사용하여 업무 프로세스를 최적화합니다. 데이터 읽기 권한자
    데이터 관리자 데이터 자산에 대한 액세스 프로비저닝 및 관리를 담당합니다. 데이터 읽기 권한자 또는 데이터 큐레이터
    데이터 분석가 및 성능 분석가 Azure를 사용하여 기존 데이터 자산 또는 임시 데이터에서 새로운 인사이트를 발견하고 공유합니다. 클릭 한 번으로 AI 변환을 만들고 미리 빌드된 모델을 사용하며 기계 학습 모델을 쉽게 만들 수 있습니다.
  • 데이터 원본 관리
  • 데이터 읽기 권한자
  • 데이터 엔지니어 Azure를 사용하여 데이터 및 분석 제품을 빌드, 통합 및 관리합니다. 해당되는 경우 AI 지원 애플리케이션 및 솔루션을 만듭니다.
  • 데이터 원본 관리
  • 데이터 큐레이터
  • 시민 데이터 과학자 코딩이 필요 없는 강력한 시각적 끌어서 놓기, 코드 없는 도구를 통해 기계 학습 모델 만들기
  • 데이터 원본 관리
  • 데이터 큐레이터
  • 데이터 과학자 원하는 도구 및 기계 학습 프레임워크를 사용하여 확장 가능한 데이터 과학 솔루션을 빌드합니다. 엔드투엔드 기계 학습 수명 주기를 가속화합니다.
  • 데이터 원본 관리
  • 데이터 큐레이터
  • 기계 학습 엔지니어 손쉬운 모델 배포 및 모델 관리를 위해 올바른 프로세스와 인프라를 사용하도록 설정합니다.
  • 데이터 원본 관리
  • 데이터 큐레이터
  • 데이터 역할에 대한 자세한 내용은 역할 및 팀을 참조하세요.

    다음 단계

    클라우드 규모 분석 시나리오를 위한 데이터 제품으로서의 Azure Machine Learning