Azure Data Lake Storage Gen2 계층 구조 네임스페이스

Azure Data Lake Storage Gen2를 사용하여 개체 스토리지 규모 및 가격에 파일 시스템 성능을 제공할 수 있는 주요 메커니즘은 계층 구조 네임스페이스를 추가한 것입니다. 이렇게 하면 계정 내의 개체/파일 컬렉션이 컴퓨터의 파일 시스템이 구성되는 것과 동일한 방식으로 디렉터리 및 중첩된 하위 디렉터리의 계층 구조로 구성될 수 있습니다. 계층 구조 네임스페이스를 사용할 수 있는 경우, 스토리지 계정은 분석 엔진 및 프레임워크에 친숙한 파일 시스템 의미 체계를 통해 개체 스토리지의 확장성 및 비용 효과를 제공합니다.

계층 구조 네임스페이스의 이점

다음과 같은 이점은 Blob 데이터를 통해 계층 구조 네임스페이스를 구현하는 파일 시스템과 연결됩니다.

  • 원자성 디렉터리 조작: 개체에서 경로 세그먼트를 나타내기 위해 개체 이름에 슬래시(/)를 포함하는 규칙을 채택하여 대략적인 디렉터리 계층 구조를 저장합니다. 이 규칙은 개체 구성 시에 작동하지만 디렉터리 이동, 이름 바꾸기 또는 삭제 등의 작업에 대한 지원을 제공하지 않습니다. 실제 디렉터리가 없으면 애플리케이션은 디렉터리 수준 작업을 수행하기 위해 수백만 개의 개별 Blob을 처리해야 할 수 있습니다. 이와 대조적으로 계층 구조 네임스페이스는 단일 항목(부모 디렉터리)을 업데이트하여 관련 작업을 처리합니다.

    많은 빅 데이터 분석 프레임워크의 경우, 이러한 극적인 최적화가 특히 중요합니다. Hive, Spark 등의 도구는 임시 위치에 출력을 쓴 다음 작업이 끝날 때 위치 이름을 바꿉니다. 계층 구조 네임스페이스가 없으면 이름을 바꾸는 작업이 분석 프로세스 자체보다 더 오래 걸릴 수 있습니다. 작업 대기 시간이 단축되면 분석 워크로드의 TCO(총 소유 비용)가 낮아집니다.

  • 친숙한 인터페이스 스타일: 파일 시스템을 개발자와 사용자가 모두 쉽게 이해할 수 있습니다. Data Lake Storage Gen2를 통해 노출되는 파일 시스템 인터페이스는 크고 작은 컴퓨터에서 사용되는 동일한 패러다임이므로 클라우드로 이동할 때 새 스토리지 패러다임을 배울 필요가 없습니다.

개체 스토리지가 이전에 계층 구조 네임스페이스를 지원하지 않았던 이유 중 하나는 계층 구조 네임스페이스가 확장을 제한했기 때문입니다. 그러나 Data Lake Storage Gen2 계층 구조 네임스페이스는 규모가 선형으로 조정되고 데이터 용량 또는 성능을 저하시키지 않습니다.

계층 구조 네임스페이스의 사용 여부 결정

계정에서 계층 구조 네임스페이스를 사용하도록 설정한 후에는 해당 네임스페이스를 다시 플랫 네임스페이스로 되돌릴 수 없습니다. 따라서 개체 저장소 워크로드의 특성에 따라 계층 구조 네임스페이스를 사용하도록 설정하는 것이 적절한지를 고려해야 합니다. 이러한 계층 구조 네임스페이스를 사용하도록 설정할 경우 워크로드, 애플리케이션, 비용, 서비스 통합, 도구, 기능 및 설명서에 미치는 영향을 평가하려면 Azure Data Lake Storage Gen2 기능을 통해 Azure Blob Storage 업그레이드를 참조하세요.

일부 워크로드는 계층 구조 네임스페이스를 사용하도록 설정해도 유용하지 않을 수 있습니다. 예를 들어 백업, 이미지 스토리지 및 개체 구성이 개체 자체와 별도로(‘예:’ 별도의 데이터베이스에) 저장되는 기타 애플리케이션이 있습니다.

또한 Blob 스토리지 기능 및 Azure 서비스 에코시스템에 대한 지원은 계속 증가하고 있지만, 계층 구조 네임스페이스가 있는 계정에서는 아직 지원되지 않는 일부 기능 및 Azure 서비스가 있습니다. 알려진 문제를 참조하세요.

일반적으로 디렉터리를 조작하는 파일 시스템용으로 설계된 스토리지 워크로드에 대해 계층 구조 네임스페이스를 설정하는 것이 좋습니다. 여기에는 분석 처리에 주로 사용되는 모든 워크로드가 포함됩니다. 계층 구조 네임스페이스를 사용하면 높은 수준의 구성이 필요한 데이터 세트에도 유용합니다.

계층 구조 네임스페이스를 사용하는 이유는 TCO 분석을 통해 결정됩니다. 일반적으로 스토리지 가속화로 인한 워크로드 대기 시간을 개선하려면 컴퓨팅 리소스에 사용되는 시간을 단축해야 합니다. 계층 구조 네임스페이스를 통해 구현되는 원자성 디렉터리 조작으로 인해 많은 워크로드의 대기 시간이 향상될 수 있습니다. 많은 워크로드에서 컴퓨팅 리소스는 총 비용의 85%를 초과하므로 워크로드 대기 시간이 적게 감소하더라도 TCO 절감 금액은 상당합니다. 계층 구조 네임스페이스를 사용하여 스토리지 비용이 증가하는 경우에도 감소된 컴퓨팅 비용으로 인해 TCO는 낮아집니다.

플랫 계층 구조 네임스페이스와 계층 구조 네임스페이스를 포함하는 계정 간의 데이터 스토리지 가격, 트랜잭션 가격 및 스토리지 용량 예약 가격의 차이를 분석하려면 Azure Data Lake Storage Gen2 가격 책정을 참조하세요.

다음 단계