클라우드 규모 분석을 위한 Azure Data Lake Storage 개요

아티클
07/11/2023

Azure Data Lake는 고성능 분석 워크로드를 위한 대량으로 확장 가능하고 안전한 데이터 스토리지입니다. 클라우드 규모 분석을 위해 단일 리소스 그룹 내에서 스토리지 계정을 만들 수 있습니다. 클라우드 규모 분석 아키텍처 데이터 랜딩 존 개요 문서에 설명된 storage-rg 리소스 그룹과 유사한 단일 리소스 그룹 내에서 3개의 Azure Data Lake Storage Gen2 계정을 프로비전하는 것이 좋습니다.

데이터 랜딩 존 내의 각 스토리지 계정은 다음 세 단계 중 하나로 데이터를 저장합니다.

원시 데이터
보강 및 큐레이팅된 데이터
개발 데이터 레이크

데이터 애플리케이션은 자동화된 데이터 중립적 수집 서비스를 수집한 스토리지 계정에서 보강되고 큐레이팅된 데이터를 사용할 수 있습니다. 데이터 중립적 엔진을 구현하지 않거나 운영 원본에서 데이터를 수집하기 위한 복잡한 연결을 용이하게 하지 않는 경우 원본 정렬 데이터 애플리케이션을 만들 수 있습니다. 이 데이터 애플리케이션은 외부 데이터 원본에서 데이터를 수집할 때 데이터 중립적 엔진과 동일한 흐름을 따릅니다.

Data Lake Storage Gen2는 파일 및 폴더 수준에서 데이터를 보호하는 세분화된 ACL(액세스 제어 목록)을 지원합니다. 액세스 제어 목록은 조직에서 데이터 제품에 대한 인증 및 권한 부여를 위한 엄격한 보안 조치를 구현하는 데 도움이 될 수 있습니다.

미사용 암호화를 통해 데이터를 안전하게 저장합니다.
Microsoft Entra 통합을 통해 Microsoft Entra 사용자 및 보안 그룹에 대한 액세스 제어

데이터 레이크 계획

데이터 레이크를 계획할 때는 항상 구조, 거버넌스 및 보안에 대한 적절한 고려 사항을 적용합니다. 여러 요소가 각 데이터 레이크의 구조 및 조직에 영향을 줍니다.

저장된 데이터 형식
데이터가 변환되는 방식
데이터에 액세스하는 사용자
일반적인 액세스 패턴

데이터 액세스 요구 사항에 따라 소비자와 생산자를 그룹화합니다. 데이터 레이크에서 구현 및 액세스 제어 거버넌스를 계획하는 것이 좋습니다.

데이터 레이크에 몇 가지 데이터 자산과 ETL(추출, 변환, 로드) 오프로딩과 같은 자동화된 프로세스가 포함되어 있으면 계획이 매우 쉬울 수 있습니다. 데이터 레이크에 수백 개의 데이터 자산이 포함되어 있고 자동화된 수동 상호 작용이 포함된 경우 데이터 소유자의 협업이 훨씬 더 필요하므로 계획하는 데 시간이 더 오래 소요될 것으로 예상됩니다.

데이터 늪 비유

데이터 늪은 사용자가 거의 액세스할 수 없는 관리되지 않는 데이터 레이크입니다. 데이터 늪은 데이터 품질 및 데이터 거버넌스 조치를 구현하지 않을 때 발생합니다. 기존 하이브리드 모델이 있는 데이터 웨어하우스에서 데이터 늪을 볼 수 있는 경우도 있습니다.

적절한 거버넌스 및 조직은 데이터 늪을 방지합니다. 데이터 레이크에 대한 견고한 기반을 구축하면 지속적인 데이터 레이크 성공 가능성과 비즈니스 가치가 높아질 수 있습니다.

데이터 자산의 크기, 복잡성, 수와 데이터 레이크의 사용자 또는 부서 수가 증가함에 따라 견고한 데이터 카탈로그 시스템을 갖추는 것이 점점 더 중요해지고 있습니다. 데이터 카탈로그 시스템은 사용자가 데이터 레이크를 처리, 사용 및 관리하는 동안 데이터를 찾고, 태그를 지정하고, 분류할 수 있도록 합니다.

자세한 내용은 데이터 거버넌스 개요를 참조하세요.

논리 데이터 레이크의 스토리지 계정

조직에 하나 이상의 스토리지 계정이 필요한지 여부를 고려하고 논리 데이터 레이크를 빌드하는 데 필요한 파일 시스템을 고려합니다. 단일 스토리지 기술은 여러 데이터 액세스 방법을 제공하며 조직 전체에서 표준화하는 데 도움이 됩니다.

Data Lake Storage Gen2는 완전 관리형 PaaS(Platform as a Service)입니다. 여러 스토리지 계정 또는 파일 시스템은 데이터에 액세스하거나 저장하기 전까지는 금전적 비용이 발생할 수 없습니다. 각 Azure 리소스에는 백업 및 재해 복구를 포함하여 프로비전, 보안 및 거버넌스 중에 관리 및 운영 오버헤드가 관련되어 있습니다.

참고 항목

각 데이터 랜딩 존에는 세 개의 데이터 레이크가 나와 있습니다. 그러나 요구 사항에 따라 원시, 보강 및 큐레이팅된 레이어를 하나의 스토리지 계정으로 통합할 수 있습니다. 데이터 소비자가 다른 유용한 데이터 제품을 가져올 수 있는 'development'라는 다른 스토리지 계정을 만들 수 있습니다.

통합 또는 세 개의 스토리지 계정 접근 방식 중에서 결정할 때 다음 요소를 고려합니다.

데이터 환경 격리 및 예측 가능성
- 원시 및 개발 영역에서 실행되는 활동을 격리하여, 중요한 의사 결정에 필요한 뛰어난 비즈니스 가치를 지닌 데이터를 보유하는 큐레이팅된 영역에 잠재적인 영향을 방지할 수 있습니다.
스토리지 계정 수준의 기능
- 데이터 랜딩 존 또는 데이터 레이크 수준에서 수명 주기 관리 옵션 또는 방화벽 규칙을 적용해야 하는지 여부를 선택할 수 있습니다.
- 여러 스토리지 계정을 만들지만 원치 않는 사일로는 만들지 않습니다.
- 조직 전체에 대한 가시성 또는 지식 공유 부족으로 인한 데이터 프로젝트 중복을 피합니다.
- 적절한 데이터 거버넌스, 프로젝트 추적 도구 및 데이터 카탈로그가 있는지 확인합니다.
구성된 사용 권한에 따라 여러 레이크의 데이터와 데이터 처리 도구 및 기술의 상호 작용
지역 및 글로벌 레이크
- 레이크의 전 세계적으로 분산된 소비자 또는 프로세스는 지리적 거리로 인한 대기 시간에 민감합니다.
- 데이터를 로컬로 저장하는 것이 좋습니다.
- 규제 제약 또는 데이터 주권으로 인해 데이터는 특정 지역 내에 있어야 할 수 있습니다.
- 자세한 내용은 다중 지역 배포를 참조하세요.

다중 지역 배포

데이터 상주 규칙 또는 사용자 기반에 가까이 데이터를 유지해야 하는 요구 사항에 따라 결정되는 경우 여러 Azure 지역에 Azure Data Lake 계정을 만들어야 할 수 있습니다. 이렇게 하려면 한 지역에서 데이터 랜딩 존을 만든 다음, AzCopy, Azure Data Factory 또는 타사 제품을 사용하여 글로벌 데이터를 복제합니다. 글로벌 데이터가 여러 지역에 복제되는 동안 로컬 데이터는 지역 내로 유지됩니다.

다음 단계

데이터 레이크 영역 및 컨테이너