데이터 랜딩 존

아티클
11/08/2023

데이터 랜딩 존은 VNet(가상 네트워크) 피어링을 통해 데이터 관리 랜딩 존에 연결됩니다. 각 데이터 랜딩 존은 Azure 랜딩 존 아키텍처와 관련된 랜딩 존으로 간주됩니다.

Important

데이터 랜딩 존을 프로비저닝하기 전에 DevOps 및 CI/CD 운영 모델을 준비하고 데이터 관리 랜딩 존을 배포해야 합니다.

데이터 랜딩 존에는 서비스 데이터 통합 및 여기에 포함된 데이터 제품에 대한 민첩성을 지원하는 계층이 여럿 있습니다. 데이터 랜딩 존에서 데이터 수집 및 분석을 시작할 수 있도록 하는 표준 서비스 집합을 사용하여 새로운 데이터 랜딩 존을 배포할 수 있습니다.

데이터 랜딩 존과 연결된 Azure 구독의 구조는 다음과 같습니다.

계층	Required	리소스 그룹
핵심 서비스	예	네트워크 Azure Databricks 작업 영역에 대한 모니터링 Azure Databricks용 Hive 메타스토어 데이터 레이크 서비스 수집 스토리지 업로드 데이터 중립적 수집 공유 통합 런타임 CI/CD 에이전트 데이터 중립적 수집 공유 Databricks 공유 Azure Synapse Analytics
데이터 애플리케이션	선택 사항	데이터 애플리케이션(1개 이상)
시각화	선택 사항	보고 및 시각화

참고 항목

데이터 애플리케이션은 하나 이상의 데이터 제품을 생성합니다.

데이터 랜딩 존 아키텍처

데이터 랜딩 존 아키텍처는 계층, 해당 리소스 그룹 및 각 리소스 그룹에 포함된 서비스를 보여 줍니다. 또한 아키텍처에서는 데이터 랜딩 존과 연결된 모든 그룹 및 역할에 대한 개요뿐만 아니라 제어와 데이터 평면에 대한 액세스 범위도 제공합니다.

팁

데이터 랜딩 존 배포를 시작하기 전에 먼저 배포할 초기 데이터 랜딩 존의 수를 고려해야 합니다.

이 아키텍처를 시작점으로 사용합니다. Visio 파일을 다운로드한 후 데이터 랜딩 존 구현을 계획할 때 특정 비즈니스 및 기술 요구 사항에 맞게 수정합니다.

핵심 서비스 계층

핵심 서비스 계층에는 클라우드 규모 분석 컨텍스트 내에서 데이터 랜딩 존을 사용하는 데 필요한 모든 서비스가 포함됩니다. 다음 표에는 배포하는 모든 데이터 랜딩 존에서 사용 가능한 서비스의 표준 제품군을 제공하는 리소스 그룹이 나와 있습니다.

리소스 그룹	Required	설명
`network-rg`	예	네트워킹
`databricks-monitoring-rg`	선택 사항	Azure Databricks 작업 영역에 대한 모니터링
`hive-rg`	선택 사항	Azure Databricks용 Hive 메타스토어
`storage-rg`	예	Data Lakes 서비스
`external-data-rg`	예	수집 스토리지 업로드
`runtimes-rg`	예	공유 통합 런타임
`mgmt-rg`	예	CI/CD 에이전트
`metadata-ingestion-rg`	선택 사항	데이터 중립적 수집
`databricks-monitoring-rg`	선택 사항	랜딩 존의 Databricks 작업 영역에 대한 Log Analytics 작업 영역
`shared-synapse-rg`	선택 사항	공유 Azure Synapse
`shared-databricks-rg`	선택 사항	공유 Azure Databricks 작업 영역

네트워킹

데이터 랜딩 존 네트워크 리소스 그룹의 다이어그램.

네트워크 리소스 그룹에는 Network Watcher, NSG(네트워크 보안 그룹), 가상 네트워크 등의 핵심 구성 요소가 포함됩니다. 이러한 모든 서비스는 단일 리소스 그룹에 배포됩니다.

데이터 랜딩 존의 가상 네트워크는 데이터 관리 랜딩 존의 VNet 및 연결 구독의 VNet과 자동으로 피어링됩니다.

Azure Databricks 작업 영역 모니터링

이 리소스 그룹은 선택 사항이며 Azure Databricks를 통해서만 배포됩니다.

데이터 랜딩 존 모니터링 리소스 그룹의 다이어그램.

Azure 랜딩 존 패턴은 모든 로그를 중앙 Log Analytics 작업 영역으로 보낼 것을 권장합니다. 그러나 각 데이터 랜딩 존에는 Databricks에서 Spark 로그를 캡처하기 위한 모니터링 리소스 그룹도 포함되어 있습니다. 각 리소스 그룹에는 Log Analytics 키를 저장하기 위한 공유 Log Analytics 작업 영역과 Azure Key Vault가 포함됩니다.

Important

Azure Databricks Spark 로그를 캡처하려면 Databricks 모니터링 리소스 그룹의 Log Analytics 작업 영역만 사용합니다.

자세한 내용은 Azure Databricks 모니터링을 참조하세요.

Azure Databricks용 Hive 메타스토어

이 리소스 그룹은 선택 사항이며 Azure Databricks를 통해서만 배포해야 합니다.

Azure Databricks용 Hive 메타데이터는 Azure Database for MySQL 데이터베이스 및 키 자격 증명 모음을 프로비전합니다. 데이터 랜딩 존의 모든 Azure Databricks 작업 영역에서는 이 메타스토어를 외부 Apache Hive 메타스토어로 사용합니다.

자세한 내용은 외부 Apache Hive 메타스토어를 참조하세요.

데이터 레이크 서비스

데이터 랜딩 존 데이터 레이크 서비스 리소스 그룹의 다이어그램.

이전 다이어그램에 나와 있는 것처럼 세 개의 Azure Data Lake Storage Gen2 계정이 단일 데이터 레이크 서비스 리소스 그룹에 프로비전됩니다. 여러 단계에서 변환된 데이터가 데이터 랜딩 존의 데이터 레이크 중 하나에 저장됩니다. 이 데이터는 분석, 데이터 과학 및 시각화 팀에서 사용할 수 있습니다.

데이터 레이크 계층에서는 기술 및 공급업체에 따라 다른 용어를 사용합니다. 이 표에는 클라우드 규모 분석에 용어를 적용하는 방법에 대한 참고 자료가 나와 있습니다.

클라우드 규모 분석	Delta Lake	기타 조건	설명
Raw	동	방문 및 규칙	수집 테이블
보강	은	표준화 영역	구체화된 테이블. 레코드 시스템에서 전체 엔터티, 사용 준비 레코드 집합을 저장했습니다.
큐레이팅됨	금	제품 영역	기능 또는 집계된 테이블. 애플리케이션, 팀, 사용자가 데이터 제품을 사용할 수 있는 기본 영역입니다.
개발	--	개발 영역	분석 샌드박스와 제품 개발 영역으로 구성된 데이터 엔지니어 및 과학자를 위한 위치입니다.

참고 항목

이전 다이어그램의 각 데이터 랜딩 존에는 세 개의 데이터 레이크가 있습니다. 그러나 요구 사항에 따라 원시 계층과 보강/큐레이팅된 계층을 하나의 스토리지 계정으로 통합하고, 데이터 소비자가 다른 유용한 데이터 제품을 가져올 수 있도록 '개발'이라는 다른 스토리지 계정을 유지 관리할 수 있습니다.

자세한 내용은 다음을 참조하세요.

수집 스토리지 업로드

타사 데이터 게시자는 데이터 애플리케이션 팀이 데이터를 데이터 레이크로 끌어올 수 있도록 플랫폼에 데이터를 배치해야 합니다. 다음 다이어그램에 나와 있는 바와 같이 업로드 수집 스토리지 리소스 그룹을 사용하면 타사용 Blob 저장소를 프로비전할 수 있습니다.

업로드 수집 스토리지 서비스의 다이어그램.

데이터 애플리케이션 팀에서 이러한 스토리지 Blob을 요청합니다. 그러면 데이터 랜딩 존 운영 팀에서 해당 요청을 승인합니다. 스토리지 Blob에서 원시로 데이터를 끌어온 후에는 원본 스토리지 Blob에서 데이터를 제거해야 합니다.

Important

Azure Storage Blob은 필요에 따라 프로비전되므로 처음에는 각 데이터 랜딩 존에 빈 스토리지 서비스 리소스 그룹을 배포해야 합니다.

공유 통합 런타임

자체 호스팅 통합 런타임이 있는 가상 머신을 데이터 랜딩 존에 배포합니다. 공유 통합 리소스 그룹에서 호스트합니다. 이 배포를 사용하면 데이터 랜딩 존에 데이터 제품을 신속하게 온보딩할 수 있습니다.

데이터 랜딩 존 공유 통합 리소스 그룹의 다이어그램.

리소스 그룹을 사용하려면 다음을 수행합니다.

데이터 랜딩 존의 공유 통합 리소스 그룹에 하나 이상의 Azure Data Factory를 만듭니다. 공유 자체 호스팅 통합 런타임을 연결하는 데에만 사용되며 데이터 파이프라인에는 사용되지 않습니다.
가상 머신에서 자체 호스팅 통합 런타임 을 만들고 구성합니다.
자체 호스팅 통합 런타임을 데이터 랜딩 존의 Azure 데이터 팩터리에 연결합니다.
자체 호스팅 통합 런타임을 주기적으로 업데이트하도록 Azure Automation을 설정합니다.

참고 항목

위의 배포는 자체 호스팅 통합 런타임을 사용하여 단일 가상 머신 배포를 제공합니다. 자체 호스팅 통합 런타임을 다수의 온-프레미스 머신 또는 Azure의 가상 머신과 연결할 수 있습니다. 이러한 컴퓨터를 노드라고 합니다. 최대 4개의 노드를 자체 호스팅 통합 런타임에 연결할 수 있습니다. 논리 게이트웨이에 게이트웨이가 설치된 온-프레미스 머신에서 다수의 노드를 사용할 경우 다음 이점을 얻을 수 있습니다.

자체 호스팅 통합 런타임의 고가용성 덕분에 빅 데이터 솔루션 또는 클라우드 데이터 통합에서 더 이상 단일 실패 지점이 발생하지 않습니다. 이 가용성은 최대 4 개의 노드를 사용하는 경우 연속성을 보장하는 데 도움이 됩니다.
온-프레미스 및 클라우드 데이터 저장소 간의 데이터 이동 성능 및 처리량을 향상시킵니다. 자세한 내용은 성능 비교를 참조하세요.

다운로드 센터에서 자체 호스팅 통합 런타임 소프트웨어를 설치하여 여러 노드를 연결할 수 있습니다. 그런 다음 자습서의 설명에 따라 New-AzDataFactoryV2IntegrationRuntimeKey cmdlet에서 가져온 인증 키 중 하나를 사용하여 등록합니다.

더 자세한 정보는 Azure Datafactory 고가용성 및 확장성에 자세히 설명되어 있습니다.

Important

데이터 원본에 최대한 가깝게 공유 통합 런타임을 배포합니다. 이러한 배포는 데이터 랜딩 존 내부 또는 타사 클라우드로의 통합 런타임 배포를 제한하지 않습니다. 대신 클라우드 네이티브 지역 내 데이터 원본에 대한 대체 기능을 제공합니다.

CI/CD 에이전트

CI/CD 에이전트는 데이터 애플리케이션과 변경 내용을 데이터 랜딩 존에 배포하는 데 도움이 됩니다.

자세한 내용은 Azure Pipelines 에이전트를 참조하세요.

데이터 중립적 수집

데이터 랜딩 존 수집 및 처리 리소스 그룹의 다이어그램.

이 리소스 그룹은 선택 사항이며 랜딩 존의 배포를 금지하지 않습니다.

이 리소스 그룹은 메타데이터 등록(연결 문자열, 데이터 복사 경로 및 수집 일정 등)에 따라 데이터를 자동으로 수집하기 위한 데이터 중립적 수집 엔진이 있거나 이를 개발 중인 경우에 적용됩니다. 수집 및 처리 리소스 그룹에는 이 종류의 프레임워크에 대한 주요 서비스가 있습니다.

Azure SQL Database 인스턴스를 배포하여 Azure Data Factory에서 사용되는 메타데이터를 저장합니다. Azure Key Vault를 프로비전하여 자동화된 수집 서비스와 관련 있는 비밀을 저장합니다. 이러한 비밀에는 다음이 포함될 수 있습니다.

Azure Data Factory 메타스토어 자격 증명
자동화된 수집 프로세스를 위한 서비스 주체 자격 증명

자세한 내용은 자동화된 수집 프레임워크가 Azure에서 클라우드 규모 분석을 지원하는 방법을 참조하세요.

이 리소스 그룹에 포함된 서비스는 다음과 같습니다.

서비스	Required	지침
Azure Data Factory	예	Azure Data Factory는 데이터 중립적 수집을 위한 오케스트레이션 엔진입니다.
Azure SQL DB	예	Azure SQL DB는 Azure Data Factory용 메타스토어입니다.
Event Hubs 또는 IoT Hub	선택 사항	Event Hubs 또는 IoT Hub는 Event Hubs에 대한 실시간 스트리밍과 Databricks 엔지니어링 작업 영역을 통한 일괄 처리 및 스트리밍 처리 기능을 제공할 수 있습니다.
Azure Databricks	선택 사항	데이터 중립적 수집 엔진에서 사용하기 위해서는 Azure Databricks 또는 Azure Synapse Spark를 배포하면 됩니다.
Azure Synapse	선택 사항	데이터 중립적 수집 엔진에서 사용하기 위해서는 Azure Databricks 또는 Azure Synapse Spark를 배포하면 됩니다.

공유 Databricks

이 리소스 그룹은 선택 사항이며 Azure Databricks를 통해서만 배포됩니다. 데이터 랜딩 존의 모든 사용자는 Databricks 작업 영역을 사용할 수 있습니다.

Azure Databricks는 Azure Data Lake Storage 서비스의 주요 소비자입니다. 원자성 파일 작업은 Spark 분석 엔진에 최적화되어 있습니다. 이 최적화는 Azure Databricks 서비스에서 발생하는 Spark 작업의 완료 속도를 높여 줍니다.

데이터 랜딩 존 공유 Databricks 리소스 그룹의 다이어그램.

Important

Azure Databricks 작업 영역은 공유 제품 리소스 그룹에 표시된 대로 Azure Databricks(분석) 작업 영역이라고 하는 모든 데이터 과학자 및 DataOps에 대해 프로비저닝됩니다.

Microsoft Entra 통과 또는 테이블 액세스 제어를 사용하여 Azure Data Lake에 연결하도록 이 작업 영역을 구성할 수 있습니다. 사용 사례에 따라 다른 보안 수단으로 조건부 액세스를 구성할 수 있습니다.

클라우드 규모 분석 모범 사례를 따라 Azure Databricks를 통합합니다.

Azure 랜딩 존 패턴은 모든 로그를 중앙 Log Analytics 작업 영역으로 보낼 것을 권장합니다. 그러나 각 데이터 랜딩 존에는 Databricks에서 Spark 로그를 캡처하기 위해 모니터링 리소스 그룹도 포함되어 있습니다.

공유 Azure Synapse 분석

이 리소스 그룹은 선택 사항입니다.

데이터 랜딩 존의 초기 설정 중에 단일 Azure Synapse Analytics 작업 영역이 공유 제품 리소스 그룹의 모든 데이터 분석 및 과학자가 사용할 수 있도록 배포됩니다.

비용 관리 및 재충전이 필요한 경우 데이터 제품에 더 많은 synapse 작업 영역을 설정할 수 있습니다. 데이터 애플리케이션 팀은 시각화 계층에서 사용하는 읽기 데이터 저장소로 전용 Azure SQL Database 풀을 만들기 위한 전용 Azure Synapse Analytics 작업 영역을 사용할 수 있습니다.

Important

SQL 주문형 쿼리만 허용하도록 작업 영역을 잠가서 공유 Azure Synapse 작업 영역을 사용하여 데이터 제품을 만들지 못하도록 합니다. 이는 착취하기 위한 용도로만 존재합니다.

데이터 애플리케이션

각 데이터 랜딩 존에는 여러 데이터 제품이 있을 수 있습니다. 원본에서 데이터를 수집하여 이러한 데이터 제품을 만들 수 있습니다. 또한 동일한 데이터 랜딩 존 내 또는 다른 데이터 랜딩 존에서 다른 데이터 제품으로 데이터 제품을 만들 수 있습니다. 데이터 제품에서 데이터 제품 만들기는 데이터 관리자의 승인을 받아야 합니다.

데이터 제품 리소스 그룹

데이터 제품 리소스 그룹 제품에는 해당 데이터 제품을 만드는 데 필요한 모든 서비스가 포함됩니다. 예를 들어 시각화 도구에서 사용하는 MySQL에는 Azure Database가 필요합니다. 데이터가 MySQL 데이터베이스에 배치되기 전에 데이터를 수집 및 변환해야 합니다. 이 경우 데이터 제품 리소스 그룹에 Azure Database for MySQL 및 Azure Data Factory를 배포할 수 있습니다.

팁

작업 원본에서 한 번 수집하기 위해 데이터 중립적 엔진을 구현하지 않도록 선택하거나 데이터 중립적 엔진에서 복잡한 연결이 용이하지 않은 경우, 원본 정렬 데이터 애플리케이션을 만듭니다. 자세한 내용은 데이터 애플리케이션(원본 맞춤)을 참조하세요.

데이터 제품을 온보딩하는 방법에 대한 자세한 내용은 Azure의 클라우드 규모 분석 데이터 제품을 참조하세요.

시각화

모든 데이터 랜딩 존에 대해 빈 시각화 리소스 그룹이 만들어집니다. 시각화 솔루션을 구현하는 데 필요한 서비스로 이 리소스 그룹을 채웁니다. 기존 VNet을 사용하면 솔루션에서 데이터 제품에 연결할 수 있습니다.

이 리소스 그룹은 타사 시각화 서비스용 가상 머신을 호스팅할 수 있습니다.

팁

라이선스 비용으로 인해, 데이터 관리 랜딩 존에 타사 시각화 제품을 배포하고 데이터 랜딩 존 간에 제품을 연결하여 데이터를 다시 가져오는 것이 경제적일 수 있습니다.

다음 단계

Azure의 클라우드 규모 분석 데이터 제품

다음을 통해 공유

데이터 랜딩 존

데이터 랜딩 존 아키텍처

핵심 서비스 계층

네트워킹

Azure Databricks 작업 영역 모니터링

Azure Databricks용 Hive 메타스토어

데이터 레이크 서비스

수집 스토리지 업로드

공유 통합 런타임

CI/CD 에이전트

데이터 중립적 수집

공유 Databricks

공유 Azure Synapse 분석

데이터 애플리케이션

데이터 제품 리소스 그룹

시각화

다음 단계

피드백

피드백

추가 리소스