Microsoft Purview에서 Azure Data Lake Storage 연결
이 문서에서는 ADLS Gen2 원본을 인증하고 상호 작용하는 지침을 포함하여 Microsoft Purview에서 Azure Data Lake Storage(ADLS Gen2) 데이터 원본을 등록하고 관리하는 프로세스를 간략하게 설명합니다.
지원되는 기능
메타데이터 추출 | 전체 검사 | 증분 검사 | 범위가 지정된 검사 | 분류 | 레이블 지정 | 액세스 정책 | 계보 | 데이터 공유 | 라이브 보기 |
---|---|---|---|---|---|---|---|---|---|
예 | 예 | 예 | 예 | 예 | 예 | 예(미리 보기) | 제한* | 예 | 예 |
* 데이터 세트가 Data Factory 또는 Synapse 파이프라인에서 원본/싱크로 사용되는 경우 계보가 지원됩니다.
Azure Data Lake Storage Gen2 원본을 검사할 때 Microsoft Purview는 다음을 비롯한 기술 메타데이터 추출을 지원합니다.
- 저장소 계정
- Data Lake Storage Gen2 서비스
- 파일 시스템(컨테이너)
- 폴더
- 파일
- 리소스 집합
검사를 설정할 때 전체 ADLS Gen2 또는 선택적 폴더를 검사하도록 선택할 수 있습니다. 여기에서 지원되는 파일 형식에 대해 알아봅니 다.
필수 구성 요소
활성 구독이 있는 Azure 계정입니다. 무료로 계정을 만듭니다.
활성 Microsoft Purview 계정입니다.
원본을 등록하고 Microsoft Purview 거버넌스 포털에서 관리하려면 데이터 원본 관리자 및 데이터 읽기 권한자여야 합니다. 자세한 내용은 Microsoft Purview 권한 페이지를 참조하세요.
등록하려면 ADLS Gen 2 계정에 대한 읽기 권한자 이상의 권한이 있어야 합니다.
등록
이 섹션에서는 Purview에서 검사 및 데이터 공유를 위해 ADLS Gen2 데이터 원본을 등록할 수 있습니다.
등록을 위한 필수 구성 요소
- 원본을 등록하고 Microsoft Purview 거버넌스 포털에서 관리하려면 데이터 원본 관리 및 다른 Purview 역할(예: 데이터 읽기 권한자 또는 Data Share 기여자) 중 하나여야 합니다. 자세한 내용은 Microsoft Purview 권한 페이지를 참조하세요.
등록 단계
데이터 원본에 대한 검사를 설정하기 전에 Microsoft Purview에 데이터 원본을 등록하는 것이 중요합니다.
다음을 수행하여 Microsoft Purview 거버넌스 포털로 이동합니다.
- Microsoft Purview 계정을 직접 https://web.purview.azure.com 탐색하고 선택합니다.
- Azure Portal 열고 Microsoft Purview 계정을 검색하고 선택합니다. Microsoft Purview 거버넌스 포털 단추를 선택합니다.
데이터 맵 -> 원본으로 이동합니다.
컬렉션 메뉴를 사용하여 컬렉션 계층 구조를 만들고 필요에 따라 개별 하위 컬렉션에 권한을 할당합니다.
원본 메뉴에서 적절한 컬렉션으로 이동하고 등록 아이콘을 선택하여 새 ADLS Gen2 데이터 원본을 등록합니다.
Azure Data Lake Storage Gen2 데이터 원본을 선택하고 계속을 선택합니다.
데이터 원본에 적합한 이름을 제공하고 관련 Azure 구독, 기존 Data Lake Store 계정 이름 및 컬렉션을 선택하고 적용을 선택합니다. 이 문서를 주의 깊게 진행할 수 있을 때까지 데이터 사용 관리 토글을 비활성화된 위치에 둡니다.
선택한 컬렉션 아래에 ADLS Gen2 스토리지 계정이 표시됩니다.
검사
검사에 대한 인증
Azure 네트워크에서 Azure 리소스 간의 통신을 허용할 수 있지만 Azure 내에서 방화벽, 프라이빗 엔드포인트 또는 가상 네트워크를 설정한 경우 아래 구성 중 하나를 따라야 합니다.
네트워킹 제약 조건 | 통합 런타임 유형 | 사용 가능한 자격 증명 형식 |
---|---|---|
프라이빗 엔드포인트 또는 방화벽 없음 | Azure IR | 관리 ID(권장), 서비스 주체 또는 계정 키 |
방화벽을 사용하도록 설정했지만 프라이빗 엔드포인트가 없음 | Azure IR | 관리 ID |
프라이빗 엔드포인트 사용 | *자체 호스팅 IR | 서비스 주체, 계정 키 |
중요
- *자체 호스팅 통합 런타임을 사용하려면 먼저 통합 런타임을 만들고Microsoft Purview에 대한 네트워크 설정을 확인해야 합니다.
- Self-Hosted Integration Runtime을 사용하여 parquet 파일을 검사하는 경우 IR 머신에 64비트 JRE 8(Java 런타임 환경) 또는 OpenJDK 를 설치해야 합니다. Java 런타임 환경 설치 가이드를 검사 수 있습니다.
검사에 시스템 또는 사용자가 할당한 관리 ID 사용
다음 두 가지 유형의 관리 ID를 사용할 수 있습니다.
시스템 할당 관리 ID(권장) - Microsoft Purview 계정을 만드는 즉시 Azure AD 테넌트에서 SAMI(시스템 할당 관리 ID)가 자동으로 만들어집니다. Microsoft Purview SAMI(시스템 할당 관리 ID)에서 검사를 수행하려면 리소스 유형에 따라 특정 RBAC 역할 할당이 필요합니다.
사용자 할당 관리 ID (미리 보기) - 시스템 관리 ID와 유사하게 UAMI(사용자 할당 관리 ID)는 Microsoft Purview가 Azure Active Directory에 대해 인증할 수 있도록 허용하는 데 사용할 수 있는 자격 증명 리소스입니다. 자세한 내용은 사용자 할당 관리 ID 가이드를 참조하세요.
Microsoft Purview 계정 또는 UAMI(사용자 할당 관리 ID)에 ADLS Gen2 데이터 원본을 검사할 수 있는 권한을 부여하는 것이 중요합니다. 필요한 수준 검사 권한에 따라 Microsoft Purview 계정의 시스템 할당 관리 ID(Microsoft Purview 계정과 동일한 이름 포함) 또는 구독, 리소스 그룹 또는 리소스 수준에서 UAMI를 추가할 수 있습니다.
참고
Azure 리소스에 관리 ID를 추가하려면 구독의 소유자여야 합니다.
Azure Portal 카탈로그에서 검색할 수 있도록 허용할 구독, 리소스 그룹 또는 리소스(예: Azure Data Lake Storage Gen2 스토리지 계정)를 찾습니다.
왼쪽 탐색 영역에서 Access Control(IAM)를 선택한 다음 + 추가 --역할 할당 추가를> 선택합니다.
역할을Storage Blob 데이터 판독기로 설정하고 입력 선택 상자 아래에 Microsoft Purview 계정 이름 또는 사용자 할당 관리 ID를 입력합니다. 그런 다음 저장 을 선택하여 Microsoft Purview 계정에 이 역할 할당을 제공합니다.
참고
자세한 내용은 Azure Active Directory를 사용하여 Blob 및 큐에 대한 액세스 권한 부여의 단계를 참조하세요.
참고
스토리지 계정에 대해 방화벽을 사용하도록 설정한 경우 검사를 설정할 때 관리 ID 인증 방법을 사용해야 합니다.
Azure Portal ADLS Gen2 스토리지 계정으로 이동합니다.
보안 + 네트워킹 > 네트워킹으로 이동합니다.
에서 액세스 허용에서선택한 네트워크를 선택합니다.
예외 섹션에서 신뢰할 수 있는 Microsoft 서비스가 이 스토리지 계정에 액세스하도록 허용을 선택하고 저장을 누릅니다.
검사 만들기
Microsoft Purview 계정을 열고 Microsoft Purview 거버넌스 포털 열기를 선택합니다.
데이터 맵 -->원본으로 이동하여 컬렉션 계층 구조를 확인합니다.
이전에 등록된 ADLS Gen2 데이터 원본 아래에서 새 검사 아이콘을 선택합니다.
시스템 또는 사용자가 할당한 관리 ID를 사용하는 경우
검사에 대한 이름을 제공하고, 자격 증명에서 시스템 할당 또는 사용자 할당 관리 ID를 선택하고, 검사에 적합한 컬렉션을 선택하고, 연결 테스트를 선택합니다. 연결이 성공하면 계속을 선택합니다.
검사 범위 지정 및 실행
목록에서 적절한 항목을 선택하여 특정 폴더 및 하위 폴더에 검사를 scope 수 있습니다.
그런 다음, 검사 규칙 집합을 선택합니다. 시스템 기본값, 기존 사용자 지정 규칙 집합 중에서 선택하거나 인라인으로 새 규칙 집합을 만들 수 있습니다.
새 검사 규칙 집합을 만드는 경우 검사 규칙에 포함할 파일 형식 을 선택합니다.
검사 규칙에 포함할 분류 규칙을 선택할 수 있습니다.
검사 트리거를 선택합니다. 일정을 설정하거나 검사를 한 번 실행할 수 있습니다.
검사를 검토하고 저장 및 실행을 선택합니다.
검사 및 검사 실행 보기
기존 검사를 보려면 다음을 수행합니다.
- Microsoft Purview 거버넌스 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
- 데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
- 보려는 결과가 있는 검사를 선택합니다. 창에는 이전의 모든 검사 실행과 각 검사 실행에 대한 상태 및 메트릭이 표시됩니다.
- 실행 ID를 선택하여 검사 실행 세부 정보를 검사.
검사 관리
검사를 편집, 취소 또는 삭제하려면 다음을 수행합니다.
Microsoft Purview 거버넌스 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
관리하려는 검사를 선택합니다. 그 후에, 다음 작업을 수행할 수 있습니다.
- 검사 편집을 선택하여 검사를 편집합니다.
- 검사 실행 취소를 선택하여 진행 중인 검사를 취소합니다.
- 검사 삭제를 선택하여 검사를 삭제합니다.
참고
- 검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.
- 원본 테이블이 변경되고 Microsoft Purview의 스키마 탭에서 설명을 편집한 후 원본 테이블을 다시 검사하면 자산이 더 이상 스키마 변경으로 업데이트되지 않습니다.
데이터 공유
Microsoft Purview 데이터 공유(미리 보기)를 사용하면 ADLS Gen2에서 ADLS Gen2로 현재 위치의 데이터를 공유할 수 있습니다. 이 섹션에서는 현재 위치에서 데이터를 공유하고 수신하기 위한 ADLS Gen2 특정 요구 사항에 대해 자세히 설명합니다. 데이터 공유를 사용하는 방법에 대한 단계별 가이드는 데이터 공유 방법 및 공유를 받는 방법을 참조하세요.
현재 위치 데이터 공유에 지원되는 스토리지 계정
현재 위치 데이터 공유에 대해 지원되는 스토리지 계정은 다음과 같습니다.
- 지역: 캐나다 중부, 캐나다 동부, 영국 남부, 영국 서부, 오스트레일리아 동부, 일본 동부, 한국 남부 및 남아프리카 북부
- 중복 옵션: LRS, GRS, RA-GRS
- 계층: 핫, 쿨
미리 보기에 프로덕션 워크로드가 없는 스토리지 계정만 사용합니다.
참고
원본 및 대상 스토리지 계정은 서로 동일한 지역에 있어야 합니다. Microsoft Purview 계정과 동일한 지역에 있을 필요는 없습니다.
데이터를 공유하는 데 필요한 스토리지 계정 권한
스토리지 계정 자산을 공유에 추가하거나 업데이트하려면 다음 권한 중 하나가 필요합니다.
- Microsoft.Authorization/roleAssignments/write - 이 권한은 소유자 역할에서 사용할 수 있습니다.
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - 이 권한은 Blob Storage 데이터 소유자 역할에서 사용할 수 있습니다.
공유 데이터를 받는 데 필요한 스토리지 계정 권한
받은 공유에 스토리지 계정 자산을 매핑하려면 다음 권한 중 하나가 필요합니다.
- Microsoft.Storage/storageAccounts/write - 이 권한은 기여자 및 소유자 역할에서 사용할 수 있습니다.
- Microsoft.Storage/storageAccounts/blobServices/containers/write - 이 권한은 기여자, 소유자, Storage Blob 데이터 기여자 및 Storage Blob 데이터소유자 역할에서 사용할 수 있습니다.
원본 스토리지 계정에서 공유 데이터 업데이트
원본 스토리지 계정의 공유 폴더에 있는 공유 파일 또는 데이터에 대한 업데이트 대상 스토리지 계정의 받는 사람이 거의 실시간으로 사용할 수 있게 됩니다. 공유 폴더 내의 하위 폴더 또는 파일을 삭제하면 받는 사람이 해당 파일이 사라집니다. 공유 폴더, 파일 또는 부모 폴더 또는 컨테이너를 삭제하려면 먼저 원본 스토리지 계정에서 모든 공유에 대한 액세스를 취소해야 합니다.
대상 스토리지 계정의 공유 데이터에 액세스
대상 스토리지 계정을 사용하면 받는 사람이 거의 실시간으로 공유 데이터 읽기 전용에 액세스할 수 있습니다. Synapse 작업 영역 및 Databricks와 같은 분석 도구를 공유 데이터에 연결하여 분석을 수행할 수 있습니다. 공유 데이터에 액세스하는 비용은 대상 스토리지 계정에 청구됩니다.
서비스 제한
원본 스토리지 계정은 최대 20개의 대상을 지원할 수 있으며 대상 스토리지 계정은 최대 100개의 원본을 지원할 수 있습니다. 한도를 늘려야 하는 경우 지원에 문의하세요.
액세스 정책
지원되는 정책
Microsoft Purview의 이 데이터 리소스에서 지원되는 정책 유형은 다음과 같습니다.
Azure Storage 계정의 액세스 정책 필수 구성 요소
지역 지원
- 모든 Microsoft Purview 지역이 지원됩니다.
- 다음 지역의 스토리지 계정은 추가 구성 없이도 지원됩니다. 그러나 ZRS(영역 중복 스토리지) 계정은 지원되지 않습니다.
- 미국 동부
- 미국 동부 2
- 미국 중남부
- 미국 서부 2
- 캐나다 중부
- 북유럽
- 서유럽
- 프랑스 중부
- 영국 남부
- 동남아시아
- 오스트레일리아 동부
- 퍼블릭 클라우드의 다른 지역에 있는 스토리지 계정은 다음 섹션에 설명된 대로 기능 플래그 AllowPurviewPolicyEnforcement를 설정한 후 지원됩니다. 기능 플래그 AllowPurviewPolicyEnforcement를 설정한 후 만든 경우 새로 만든 ZRS Storage 계정이 지원됩니다.
필요한 경우 이 가이드에 따라 새 Storage 계정을 만들 수 있습니다.
Azure Storage 계정이 Microsoft Purview의 정책에 상주하는 구독 구성
이 단계는 특정 지역에서만 필요합니다(이전 섹션 참조). Microsoft Purview가 하나 이상의 Azure Storage 계정에 대한 정책을 관리할 수 있도록 하려면 Azure Storage 계정을 배포할 구독에서 다음 PowerShell 명령을 실행합니다. 이러한 PowerShell 명령을 사용하면 Microsoft Purview가 해당 구독의 모든 Azure Storage 계정에 대한 정책을 관리할 수 있습니다.
이러한 명령을 로컬로 실행하는 경우 관리자 권한으로 PowerShell을 실행해야 합니다. 또는 Azure Portal Azure Cloud Shellhttps://shell.azure.com사용할 수 있습니다.
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
마지막 명령의 출력에 RegistrationState 가 등록됨으로 표시되면 액세스 정책에 대한 구독이 활성화됩니다. 출력이 등록 중이면 10분 이상 기다린 다음 명령을 다시 시도합니다. RegistrationState가 등록됨으로 표시되지 않는 한 계속하지 마세요.
정책에 대한 Microsoft Purview 계정 구성
Microsoft Purview에서 데이터 원본 등록
데이터 리소스에 대한 정책을 Microsoft Purview에서 만들려면 먼저 해당 데이터 리소스를 Microsoft Purview Studio에 등록해야 합니다. 이 가이드의 뒷부분에서 데이터 리소스 등록과 관련된 지침을 찾을 수 있습니다.
참고
Microsoft Purview 정책은 데이터 리소스 ARM 경로를 사용합니다. 데이터 리소스가 새 리소스 그룹 또는 구독으로 이동되면 등록을 해제한 다음 Microsoft Purview에 다시 등록해야 합니다.
데이터 원본에서 데이터 사용 관리를 사용하도록 권한 구성
리소스가 등록되었지만 해당 리소스에 대한 Microsoft Purview에서 정책을 만들려면 먼저 권한을 구성해야 합니다. 데이터 사용 관리를 사용하도록 설정하려면 사용 권한 집합이 필요합니다. 이는 데이터 원본, 리소스 그룹 또는 구독에 적용됩니다. 데이터 사용 관리를 사용하도록 설정하려면 리소스에 대한 특정 ID 및 액세스 관리(IAM) 권한과 특정 Microsoft Purview 권한이 모두 있어야 합니다.
리소스의 Azure Resource Manager 경로에 다음 IAM 역할 조합 중 하나 또는 부모(즉, IAM 권한 상속 사용)가 있어야 합니다.
- IAM 소유자
- IAM 기여자와 IAM 사용자 액세스 관리자 모두
Azure RBAC(역할 기반 액세스 제어) 권한을 구성하려면 이 가이드를 따릅니다. 다음 스크린샷은 데이터 리소스에 대한 Azure Portal Access Control 섹션에 액세스하여 역할 할당을 추가하는 방법을 보여줍니다.
참고
데이터 리소스에 대한 IAM 소유자 역할은 부모 리소스 그룹, 구독 또는 구독 관리 그룹에서 상속할 수 있습니다. 리소스에 대한 IAM 소유자 역할을 보유하거나 상속하는 사용자, 그룹 및 서비스 주체를 Azure AD 확인합니다.
또한 컬렉션 또는 부모 컬렉션에 대한 Microsoft Purview 데이터 원본 관리자 역할이 있어야 합니다(상속을 사용하는 경우). 자세한 내용은 Microsoft Purview 역할 할당 관리에 대한 가이드를 참조하세요.
다음 스크린샷은 루트 컬렉션 수준에서 데이터 원본 관리자 역할을 할당하는 방법을 보여줍니다.
액세스 정책을 만들거나 업데이트하거나 삭제하도록 Microsoft Purview 권한 구성
정책을 만들거나 업데이트하거나 삭제하려면 루트 컬렉션 수준에서 Microsoft Purview에서 정책 작성자 역할을 가져와야 합니다.
- 정책 작성자 역할은 DevOps 및 데이터 소유자 정책을 만들고, 업데이트하고, 삭제할 수 있습니다.
- 정책 작성자 역할은 셀프 서비스 액세스 정책을 삭제할 수 있습니다.
Microsoft Purview 역할 할당 관리에 대한 자세한 내용은 Microsoft Purview 데이터 맵 컬렉션 만들기 및 관리를 참조하세요.
참고
정책 작성자 역할은 루트 컬렉션 수준에서 구성해야 합니다.
또한 정책의 제목을 만들거나 업데이트할 때 Azure AD 사용자 또는 그룹을 쉽게 검색하려면 Azure AD 디렉터리 읽기 권한자 권한을 얻는 것이 좋습니다. 이는 Azure 테넌트 사용자에 대한 일반적인 권한입니다. 디렉터리 읽기 권한자 권한이 없으면 정책 작성자는 데이터 정책의 제목에 포함된 모든 보안 주체에 대한 전체 사용자 이름 또는 이메일을 입력해야 합니다.
데이터 소유자 정책을 게시하기 위한 Microsoft Purview 권한 구성
데이터 소유자 정책은 Microsoft Purview 정책 작성자 및 데이터 원본 관리자 역할을 organization 다른 사용자에게 할당하는 경우 검사 및 균형을 허용합니다. 데이터 소유자 정책이 적용되기 전에 두 번째 사용자(데이터 원본 관리자)는 이를 검토하고 게시하여 명시적으로 승인해야 합니다. 이러한 정책을 만들거나 업데이트할 때 게시가 자동으로 수행되므로 DevOps 또는 셀프 서비스 액세스 정책에는 적용되지 않습니다.
데이터 소유자 정책을 게시하려면 루트 컬렉션 수준에서 Microsoft Purview의 데이터 원본 관리자 역할을 가져와야 합니다.
Microsoft Purview 역할 할당 관리에 대한 자세한 내용은 Microsoft Purview 데이터 맵 컬렉션 만들기 및 관리를 참조하세요.
참고
데이터 소유자 정책을 게시하려면 루트 컬렉션 수준에서 데이터 원본 관리자 역할을 구성해야 합니다.
Microsoft Purview의 역할에 액세스 프로비저닝 책임 위임
데이터 사용 관리에 리소스를 사용하도록 설정한 후 루트 컬렉션 수준에서 정책 작성자 역할을 가진 모든 Microsoft Purview 사용자는 Microsoft Purview에서 해당 데이터 원본에 대한 액세스를 프로비전할 수 있습니다.
참고
모든 Microsoft Purview 루트 컬렉션 관리자는 루트 정책 작성자 역할에 새 사용자를 할당할 수 있습니다. 모든 컬렉션 관리자는 컬렉션 의 데이터 원본 관리자 역할에 새 사용자를 할당할 수 있습니다. Microsoft Purview 컬렉션 관리자, 데이터 원본 관리자 또는 정책 작성자 역할을 보유하는 사용자를 최소화하고 신중하게 검사합니다.
게시된 정책이 있는 Microsoft Purview 계정이 삭제되면 해당 정책은 특정 데이터 원본에 따라 달라지는 시간 내에 적용되지 않습니다. 이 변경은 보안 및 데이터 액세스 가용성 모두에 영향을 미칠 수 있습니다. IAM의 기여자 및 소유자 역할은 Microsoft Purview 계정을 삭제할 수 있습니다. Microsoft Purview 계정에 대한 액세스 제어(IAM) 섹션으로 이동하여 역할 할당을 선택하여 이러한 권한을 검사 수 있습니다. 잠금을 사용하여 Microsoft Purview 계정이 Resource Manager 잠금을 통해 삭제되지 않도록 할 수도 있습니다.
데이터 사용 관리를 위해 Microsoft Purview에 데이터 원본 등록
액세스 정책을 만들려면 먼저 Azure Storage 리소스를 Microsoft Purview에 등록해야 합니다. 리소스를 등록하려면 이 가이드의 필수 구성 요소 및 등록 섹션을 따릅니다.
데이터 원본을 등록한 후에는 데이터 사용 관리를 사용하도록 설정해야 합니다. 데이터 원본에서 정책을 만들려면 필수 구성 요소입니다. 데이터 사용 관리는 데이터 원본에 대한 액세스를 관리하는 특정 Microsoft Purview 역할에 위임하므로 데이터의 보안에 영향을 미칠 수 있습니다. 데이터 사용 관리와 관련된 보안 방법 가이드: 데이터 사용 관리를 사용하도록 설정하는 방법 가이드를 참조하세요.
데이터 원본에 데이터 사용 관리 옵션이 사용으로 설정되면 이 스크린샷과 같습니다. 줍니다.
정책 만들기
Azure Data Lake Storage Gen2 대한 액세스 정책을 만들려면 다음 가이드를 따릅니다.
리소스 그룹 또는 Azure 구독 내의 모든 데이터 원본을 포함하는 정책을 만들려면 이 섹션을 참조하세요.
다음 단계
아래 가이드에 따라 Microsoft Purview 및 데이터에 대해 자세히 알아보세요.