Azure에서 클라우드 규모 분석을 위한 여러 데이터 영역

아티클
01/10/2024

이 참조 아키텍처는 클라우드 규모 분석의 기본 버전을 구현한 조직을 위한 것이며, 이제 분석 작업을 현대화하는 데 도움이 되는 새로운 사업부를 호스트할 준비가 되었습니다. 이 보다 복잡한 시나리오에서는 여러 랜딩 존, 데이터 애플리케이션 및 데이터 제품을 사용합니다.

Apache Hive 및 Hive 로고는 미국 및/또는 기타 국가에서 Apache Software Foundation의 등록 상표 또는 상표입니다. 이러한 표시의 사용은 Apache Software Foundation에 의한 보증을 암시하지 않습니다.

문제 설명

이 예제의 가상 회사인 Relecloud는 글로벌 조직에 공유 컴퓨팅 및 스토리지 리소스를 제공하는 프라이빗 클라우드 공급자입니다. Relecloud는 컴퓨팅 리소스를 제공하지만 자체 내부 작업으로 플랫폼을 제한하고 싶지는 않습니다. 따라서 내부 컴퓨팅 요구 사항에 대해 Microsoft Azure에 의존합니다.

운영 그룹의 데이터 분석가는 클라우드 서비스의 원격 분석 데이터를 사용하여 고객이 플랫폼을 사용하는 방법을 이해합니다. 청구 그룹의 별도 분석가 팀은 청구서 데이터를 분석하면서 가장 많은 수익을 창출하는 서비스에 대한 인사이트를 얻습니다.

지난 분기 운영 팀은 분석 플랫폼을 Azure로 마이그레이션하여 현대화했습니다. 클라우드 규모 분석을 구현하는 한 가지 목표는 플랫폼을 확장하고 새로운 조직 워크로드를 추가할 가능성을 최대화하는 것이었습니다.

현재 청구 그룹은 현재 분석 솔루션을 능가하게 커졌습니다. 분석할 청구서의 양이 온-프레미스 서버에 비해 너무 큽니다. 팀은 운영 그룹의 리더를 따르고 Azure에서 데이터 분석 플랫폼을 현대화하기로 결정합니다.

청구 그룹의 분석가는 운영 그룹의 분석가와 다른 기술을 가지고 있습니다. 청구 분석가는 작업과 동일한 도구를 사용하도록 제한되기를 원하지 않습니다. 청구 그룹은 조직의 다른 부분에 있으며 요구 사항을 충족하는 정책 및 절차를 유연하게 구현하려고 합니다.

아키텍처 솔루션

Relecloud는 청구 그룹에 대한 새 랜딩 존을 추가하여 분석 플랫폼의 크기를 조정합니다. 이 랜딩 존은 청구 그룹이 비즈니스 요구 사항을 충족하는 분석 솔루션을 구현할 수 있는 가상 작업 영역을 제공합니다. 랜딩 존을 조직의 다른 리소스와 분리하여 청구 그룹은 자체 액세스 정책을 구현하고 서비스 비용을 고려할 수 있습니다.

다음 다이어그램은 모든 Azure 서비스를 나타내지 않습니다. 다이어그램은 아키텍처 내에서 리소스를 구성하는 핵심 개념을 강조하기 위해 간소화되었습니다.

데이터 관리 랜딩 존

클라우드 규모 분석 구현을 위한 주요 요구 사항은 데이터 관리 랜딩 존입니다. 이 구독에는 방화벽 또는 프라이빗 DNS 영역과 같은 공유 네트워킹 구성 요소를 포함하여 모든 랜딩 존에서 공유되는 리소스가 포함됩니다. 데이터 관리 랜딩 존에는 Azure Policy 및 Azure Purview와 같은 데이터 및 클라우드 거버넌스에 대한 리소스도 포함됩니다.

Relecloud는 작업 그룹에 대한 데이터 분석 솔루션을 배포할 때 데이터 관리 랜딩 존을 만들었습니다. 청구 그룹이 플랫폼에 가입하면 동일한 데이터 관리 랜딩 존을 사용하여 작업 그룹과 공통 리소스를 공유합니다.

운영 데이터 랜딩 존

작업 그룹에는 데이터 랜딩 존에 다음과 같은 솔루션이 있습니다.

운영 데이터 애플리케이션

팀은 Azure Databricks에서 Apache Spark 작업을 사용하여 서비스 원격 분석 데이터를 수집하고 Azure Data Lake Storage 계정에 저장하는 원본 정렬 데이터 애플리케이션을 빌드했습니다.

이 프로세스는 원본 시스템에서 있는 그대로 데이터를 복사하지만 변환하지는 않습니다. 분석가는 원본 시스템을 오버로드하지 않고 분석 플랫폼에서 복사한 데이터를 사용할 수 있습니다. 운영 팀은 이 데이터 애플리케이션에 대한 전용 배포를 만드는 대신 공유 수집 및 처리 리소스 그룹의 Databricks 작업 영역을 사용합니다.

Relecloud 고객은 클라우드 계정을 만들어 프라이빗 클라우드에서 리소스 및 청구를 관리할 수 있습니다. 각 고객은 여러 계정을 보유할 수 있습니다. 분석 팀은 클라우드 계정 데이터를 가져오는 데이터 애플리케이션을 빌드했습니다. 데이터의 볼륨과 빈도가 원격 분석 데이터보다 훨씬 낮기 때문에 팀은 Spark 작업을 사용할 필요가 없습니다. 대신 데이터를 복사하기 위해 Azure Data Factory 파이프라인을 만들었습니다.

Azure Database for MySQL은 Hive 메타스토어 역할을 하고 Azure SQL Database는 Azure Data Factory 메타스토어입니다.

운영 데이터 제품

Relecloud 분석가는 새로운 소비자 맞춤 데이터 애플리케이션을 만들어 원본 정렬 데이터 애플리케이션의 데이터에서 가치를 얻습니다. 이러한 소비자 정렬 데이터 애플리케이션 중 하나는 클라우드 서비스 추천 모델입니다. Relecloud 데이터 과학자는 Azure Machine Learning을 사용하여 클라우드 계정이 사용하는 서비스를 살펴보고 유용할 수 있는 관련 서비스를 제안하는 모델을 빌드했습니다. 팀은 랜딩 존에서 실행되고 Azure Machine Learning에서 관리하는 AKS(Azure Kubernetes Service) 클러스터에 이 모델을 배포합니다. 클라우드 규모 분석 외부에서 실행되는 애플리케이션은 AKS 엔드포인트를 호출하여 권장 사항을 가져올 수 있습니다.

청구 팀이 랜딩 존을 만든 후 운영 팀은 관리 팀이 요청하는 새 데이터 제품을 만듭니다. 관리 팀은 클라우드 서비스 추천 데이터 애플리케이션이 생성하는 수익의 양을 알고자 합니다. 새 추천 수익 데이터 제품은 Azure Synapse Analytics를 사용하여 클라우드 서비스 추천자와 서비스별 Revenue의 데이터를 새 데이터 제품으로 결합합니다. 비즈니스 분석가는 Azure Synapse를 Microsoft Power BI에 연결하여 이 새 데이터 제품에서 인사이트를 찾고 보고할 수 있습니다.

청구 데이터 랜딩 존

청구 그룹은 온-프레미스 시스템을 사용하여 분석을 강화했지만 데이터 볼륨이 증가하고 회사가 작업에 더 많이 의존함에 따라 시스템은 속도를 유지할 수 없었습니다. 이 그룹은 클라우드로 이동하여 플랫폼을 현대화합니다.

청구 그룹은 운영 그룹과 랜딩 존을 공유하지 않지만 자신의 요구에 가장 적합한 플랫폼을 자유롭게 빌드할 수 있는 자체 랜딩 존을 가져옵니다. 새 랜딩 존은 가상 네트워크 피어링을 사용하여 데이터 관리 랜딩 존 및 기타 모든 데이터 랜딩 존에 연결됩니다. 이 메커니즘을 사용하면 Azure 내부 네트워크를 통해 데이터를 안전하게 공유할 수 있습니다.

청구 데이터 애플리케이션

기존 시스템에서 분석 플랫폼으로 데이터를 가져오기 위해 청구 그룹은 두 개의 데이터 애플리케이션을 빌드합니다. 첫 번째 애플리케이션은 고객 전체 목록과 고객 주소, 위치 및 영업 사원 할당과 같은 모든 관련 데이터를 포함하여 고객 데이터를 수집합니다. 두 번째 애플리케이션은 고객의 모든 청구 요금 및 관련 결제 데이터를 포함하는 회사의 청구서 기록을 가져옵니다.

이러한 두 애플리케이션은 공유 Azure Synapse 작업 영역의 파이프라인을 통해 구동됩니다. 각 애플리케이션에는 비용 회계 및 보안 경계를 용이하게 하는 전용 컴퓨팅 풀이 있습니다. 공유 리소스를 사용하여 애플리케이션을 완전히 구현할 수 있으므로 청구 그룹은 이러한 데이터 애플리케이션을 위한 배포를 만들 필요가 없습니다.

청구 데이터 제품

청구 분석가는 각 클라우드 서비스가 Relecloud에 대해 생성하는 수익의 양을 분석하는 서비스별 Revenue라는 새 데이터 제품을 만듭니다. 이 제품은 청구서 수집의 데이터를 사용합니다. 또한 제품은 작업 랜딩 존에 연결하고 서비스 사용량 현황 데이터를 읽습니다. 데이터 애플리케이션과 마찬가지로 데이터 제품은 공유 Azure Synapse 작업 영역도 사용합니다.

배포 템플릿

아키텍처를 배포하려면 다음 데이터 관리 랜딩 존 및 데이터 랜딩 존 참조 구현 템플릿을 사용합니다.

다음 템플릿을 사용하여 Relecloud 청구 및 운영 데이터 랜딩 존에 다른 데이터 애플리케이션 및 데이터 제품을 배포합니다.

이름	데이터 랜딩 존	Type	템플릿
클라우드 계정	작업	데이터 애플리케이션	데이터 제품 일괄 처리 템플릿
추천 매출	작업	데이터 제품	데이터 제품 일괄 처리 템플릿
클라우드 서비스 추천	작업	데이터 애플리케이션	데이터 제품 분석 템플릿
서비스별 매출	결제	데이터 제품	데이터 제품 일괄 처리 템플릿

Important

Relecloud는 요구 사항을 충족하기 위해 이전 참조 구현 템플릿의 모든 항목을 배포할 필요가 없습니다. 템플릿에는 일정 수준의 사용자 지정이 필요합니다. 배포하기 전에 템플릿에서 필요하지 않은 서비스를 제거합니다.

다음 단계

Azure에서 안전한 클라우드 규모 분석을 위한 Lamna Healthcare 시나리오를 계속 진행합니다.

자세한 내용은 다음 문서를 참조하세요.

다음을 통해 공유