Azure Data Lake Storage Gen2 소개

‎Azure Data Lake Storage Gen2는 Azure Blob Storage를 기준으로 하는 빅 데이터 분석 전용의 기능 세트입니다.

Data Lake Storage Gen2는 Azure Data Lake Storage Gen1의 기능을 Azure Blob Storage와 통합합니다. 예를 들어 Data Lake Storage Gen2는 파일 시스템 의미 체계, 파일 수준 보안 및 확장을 제공합니다. 이러한 기능은 Blob Storage를 기반으로 하므로 고가용성/재해 복구 기능을 갖춘 계층화된 저렴한 스토리지를 가져올 수도 있습니다.

Data Lake Storage Gen2는 Azure에서 Azure Storage를 엔터프라이즈 데이터 레이크를 구축하기 위한 기반으로 만듭니다. 처음부터 수백 기가비트의 처리량을 유지하면서 수 페타바이트의 정보에 대한 서비스를 제공하도록 설계된 Data Lake Storage Gen2는 방대한 양의 데이터를 쉽게 관리할 수 있습니다.

데이터 레이크란?

데이터 레이크는 정형 및 비정형의 모든 데이터를 저장할 수 있는 단일 중앙 리포지토리입니다. 조직에서는 데이터 레이크를 사용하여 단일 위치에서 다양한 데이터를 빠르고 쉽게 저장하고 액세스하고 분석할 수 있습니다. 데이터 레이크를 사용하면 기존 구조에 맞게 데이터를 구성할 필요가 없습니다. 대신 데이터를 일반적으로 파일 또는 Blob(Binary Large Object)에 해당하는 원시 또는 네이티브 형식으로 저장할 수 있습니다.

Azure Data Lake Storage는 클라우드 기반 엔터프라이즈 데이터 레이크 솔루션입니다. 이 솔루션은 모든 형식으로 대량의 데이터를 저장하고 빅 데이터 분석 워크로드를 용이하게 하도록 설계되었습니다. 다양한 프레임워크를 사용하여 쉽게 액세스 및 분석할 수 있도록 단일 위치에서 모든 형식과 수집 속도의 데이터를 캡처하는 데 사용합니다.

Data Lake Storage Gen2

Azure Data Lake Storage Gen2는 Azure Data Lake Storage 솔루션의 현재 구현을 나타냅니다. 이전 구현인 Azure Data Lake Storage Gen1은 2024년 2월 29일에 사용 중지됩니다.

Data Lake Storage Gen1 달리 Data Lake Storage Gen2는 전용 서비스 또는 계정 유형이 아닙니다. 대신 Azure Storage 계정의 Blob Storage 서비스와 함께 사용하는 기능 집합으로 구현됩니다. 계층 구조 네임스페이스 설정을 사용하도록 설정하여 이러한 기능을 잠금 해제할 수 있습니다.

Data Lake Storage Gen2는 다음 기능을 포함합니다.

✓ Hadoop 호환 액세스

✓ 계층적 디렉터리 구조

✓ 최적화된 비용 및 성능

✓ 세분화된 보안 모델

✓ 대규모 확장성

Hadoop 호환 액세스

Azure Data Lake Storage Gen2는 기본적으로 Hadoop, Apache HDFS(Hadoop 분산 파일 시스템)를 데이터 액세스 계층으로 사용하는 모든 프레임워크에서 사용할 수 있도록 설계되었습니다. Hadoop 배포판에는 여러 애플리케이션 및 프레임워크에서 Azure Blob Storage 데이터에 직접 액세스할 수 있도록 하는 ABFS(Azure Blob File System) 드라이버가 포함되어 있습니다. ABFS 드라이버는 빅 데이터 분석을 위해 특별히 최적화되었습니다. 해당 REST API는 dfs.core.windows.net 엔드포인트를 통해 표시됩니다.

HDFS를 데이터 액세스 계층으로 사용하는 데이터 분석 프레임워크는 ABFS를 통해 Azure Data Lake Storage Gen2 데이터에 직접 액세스할 수 있습니다. Apache Spark 분석 엔진 및 Presto SQL 쿼리 엔진은 이러한 프레임워크의 예제입니다.

지원되는 서비스 및 플랫폼에 대한 자세한 내용은 Azure Data Lake Storage Gen2를 지원하는 Azure 서비스Azure Data Lake Storage Gen2를 지원하는 오픈 소스 플랫폼을 참조하세요.

계층적 디렉터리 구조

계층 구조 네임스페이스는 Azure Data Lake Storage Gen2에서 개체 스토리지 스케일 및 가격으로 고성능 데이터 액세스를 제공할 수 있도록 하는 핵심 기능입니다. 이 기능을 사용하여 스토리지 계정 내의 모든 개체와 파일을 디렉터리 및 중첩된 하위 디렉터리의 계층 구조로 구성할 수 있습니다. 즉, Azure Data Lake Storage Gen2 데이터는 컴퓨터에서 파일이 구성된 방식과 거의 동일한 방식으로 구성됩니다.

디렉터리 이름 변경 또는 삭제와 같은 작업은 디렉터리에 대한 단일 원자성 메타데이터 작업이 됩니다. 디렉터리의 이름 접두사를 공유하는 모든 개체를 열거하고 처리할 필요가 없습니다.

최적화된 비용 및 성능

Azure Data Lake Storage Gen2는 Azure Blob Storage 수준에서 가격이 책정됩니다. 이 기능은 빅 데이터 스토리지 비용을 관리하기 위해 자동화된 수명 주기 정책 관리 및 개체 수준 계층화와 같은 Azure Blob Storage 기능을 토대로 구축되었습니다.

분석의 필수 구성 요소로 데이터를 복사하거나 변환할 필요가 없으므로 성능이 최적화됩니다. Azure Data Lake Storage의 계층 구조 네임스페이스 기능을 사용하면 효율적인 액세스 및 탐색이 가능합니다. 이 아키텍처를 사용하면 데이터 처리에 더 적은 컴퓨팅 리소스가 필요하므로 데이터 액세스 속도가 단축되고 비용이 절감됩니다.

세분화된 보안 모델

Azure Data Lake Storage Gen2 액세스 제어 모델은 Azure RBAC(Azure 역할 기반 액세스 제어)와 POSIX(Portable Operating System Interface for UNIX) ACL(액세스 제어 목록)을 모두 지원합니다. Azure Data Lake Storage Gen2와 관련된 몇 가지 추가 보안 설정도 있습니다. 디렉터리 수준 또는 파일 수준에서 사용 권한을 설정할 수 있습니다. 저장된 모든 데이터는 사용하고 있지 않을 때 Microsoft 관리형 또는 고객 관리형 암호화 키를 사용하여 암호화됩니다.

대규모 확장성

Azure Data Lake Storage Gen2는 대규모 스토리지를 제공하며 다양한 데이터 형식의 분석을 허용합니다. 데이터 레이크에 저장할 수 있는 계정 크기, 파일 크기 또는 데이터 양을 제한하지 않습니다. 개별 파일의 크기는 수 KB(킬로바이트)에서 수 PB(페타바이트)까지 다양합니다. 서비스, 계정 및 파일 수준에서 측정되는 거의 지속적인 요청별 대기 시간으로 처리가 실행됩니다.

이러한 디자인을 통해 Azure Data Lake Storage Gen2는 가장 까다로운 워크로드에 맞게 쉽고 빠르게 스케일 업할 수 있습니다. 또한 수요가 감소할 때 쉽게 다시 스케일 다운할 수 있습니다.

Azure Blob Storage 기반 빌드

수집한 데이터는 스토리지 계정에서 Blob으로 유지됩니다. Blob을 관리하는 서비스는 Azure Blob Storage 서비스입니다. Data Lake Storage Gen2는 빅 데이터 분석 워크로드의 요구를 충족하는 이 서비스의 기능 또는 "향상된 기능"을 설명합니다.

이러한 기능이 Blob Storage를 기반으로 하므로 진단 로깅, 액세스 계층, Blob Storage 수명 주기 관리 정책과 같은 Blob Storage 기능을 계정에서 사용할 수 있습니다. 대부분의 Blob Storage 기능은 완전히 지원되지만 일부 기능은 미리 보기 수준에서만 지원될 수 있으며 아직 지원되지 않는 기능이 몇 개 있습니다. 지원 문의 전체 목록은 Azure Storage 계정의 Blob Storage 기능 지원을 참조하세요. 나열된 각 기능의 상태는 이후 지원이 계속 확장됨에 따라 변경될 수 있습니다.

설명서 및 용어

Azure Blob Storage 목차에는 두 개의 콘텐츠 섹션이 있습니다. 콘텐츠의 Data Lake Storage Gen2 섹션에서는 Data Lake Storage Gen2 기능을 사용하기 위한 모범 사례 및 지침을 제공합니다. 콘텐츠의 Blob Storage 섹션에서는 Data Lake Storage Gen2에 한정되지 않은 계정 기능에 대한 지침을 제공합니다.

두 섹션을 살펴보면 약간의 용어 차이를 알 수 있습니다. 예를 들어 Blob 스토리지 설명서의 콘텐츠는 파일 대신 Blob이라는 용어를 사용합니다. 기술적으로, 스토리지 계정에 수집하는 파일은 계정의 Blob이 됩니다. 따라서 용어가 올바른 것입니다. 그러나 blob이라는 용어를 사용하면 파일이라는 용어에 익숙할 경우 혼동이 발생할 수 있습니다. 파일 시스템을 참조하는 데 사용되는 컨테이너라는 용어도 볼 수 있습니다. 이러한 용어는 같은 용어로 간주됩니다.

참고 항목