Azure에서 빅 데이터 스토리지 기술 선택

참고

2024년 2월 29일 Azure Data Lake Storage Gen1은 사용 중지됩니다. 자세한 내용은 공식 공지를 참조하세요. Azure Data Lake Storage Gen1을 사용하는 경우 해당 날짜 이전에 Azure Data Lake Storage Gen2로 마이그레이션해야 합니다. 방법을 알아보려면 Azure Portal을 사용하여 Azure Data Lake Storage를 Gen1에서 Gen2로 마이그레이션을 참조하세요.

Azure Data Lake Storage Gen1 계정이 아직 없으면 새 계정을 만들 수 없습니다.

이 항목에서는 분석 데이터 저장소 또는 실시간 스트리밍 수집과는 달리 빅 데이터 솔루션, 특히 대량 데이터 수집 및 일괄 처리용 데이터 스토리지에 대한 데이터 스토리지 옵션을 비교합니다.

Azure에서 데이터 스토리지를 선택할 때의 옵션은 무엇인가요?

Azure에서는 사용자의 요구에 따라 몇 가지 데이터 수집 옵션을 사용할 수 있습니다.

파일 스토리지:

NoSQL 데이터베이스:

분석 데이터베이스:

Azure Data Explorer

Azure Storage Blob

Azure Storage는 가용성, 보안, 내구성, 확장성 및 중복성이 높은 관리되는 스토리지 서비스입니다. Microsoft는 유지 관리를 담당하고 사용자에 대한 중요한 문제를 처리합니다. Azure Storage는 함께 사용할 수 많은 서비스 및 도구 때문에, Azure에서 제공하는 가장 보편적인 스토리지 솔루션입니다.

다양한 Azure Storage 서비스를 사용하여 데이터를 저장할 수 있습니다. 여러 데이터 원본의 Blob을 저장하는 가장 유연한 옵션은 Blob Storage입니다. Blob은 기본적으로 파일입니다. 사진, 문서, HTML 파일, VHD(가상 하드 디스크), 로그와 같은 빅 데이터, 데이터베이스 백업(거의 모든 항목)을 저장합니다. Blob은 폴더와 유사한 컨테이너에 저장됩니다. 컨테이너는 Blob 집합의 그룹화를 제공합니다. 한 스토리지 계정에 포함될 수 있는 컨테이너 수에 제한이 없으며, 컨테이너에 저장될 수 있는 Blob 수에도 제한이 없습니다.

Azure Storage는 유연성, 고가용성 및 저렴한 비용으로 인해 빅 데이터 및 분석 솔루션에 적합합니다. 다양한 사용 사례에 맞게 핫 스토리지 계층, 쿨 스토리지 계층 및 보관 스토리지 계층을 제공합니다. 자세한 내용은 Azure Blob Storage: 핫, 쿨 및 보관 스토리지 계층을 참조하세요.

Azure Blob Storage는 Hadoop(HDInsight를 통해 사용 가능)에서 액세스할 수 있습니다. HDInsight는 Azure Storage의 Blob 컨테이너를 클러스터의 기본 파일 시스템으로 사용합니다. WASB 드라이버에서 제공하는 HDFS(Hadoop Distributed File System) 인터페이스를 통해 HDInsight의 전체 구성 요소 집합을 Blob로 저장된 구조적 또는 비구조적 데이터에 대해 직접 작동할 수 있습니다. Azure Blob Storage는 PolyBase 기능을 사용하여 Azure Synapse Analytics를 통해 액세스할 수도 있습니다.

Azure Storage의 선택 가능성을 높이는 기타 기능에는 다음이 포함됩니다.

Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1은 빅 데이터 분석 작업을 위한 엔터프라이즈 수준 하이퍼 스케일 리포지토리입니다. Data Lake를 사용하면 작동 및 예비 분석에 대해 하나의 보안 위치에 모든 크기, 형식 및 수집 속도의 데이터를 캡처할 수 있습니다.

Azure Data Lake Storage Gen1은 계정 크기, 파일 크기 또는 데이터 레이크에 저장할 수 있는 데이터 양에 제한을 두지 않습니다. 데이터는 여러 복사본을 만들어 영구적으로 저장되며 데이터가 Data Lake에 저장될 수 있는 기간에 제한이 없습니다. Data Lake는 예기치 않은 오류로부터 보호하기 위해 파일의 여러 복사본을 만드는 것 외에도, 여러 개별 스토리지 서버에 파일 부분을 분산합니다. 데이터 분석을 수행하기 위해 병렬로 파일을 읽을 때 읽기 처리량이 향상됩니다.

Azure Data Lake Storage Gen1은 WebHDFS 호환 REST API를 사용하여 Hadoop(HDInsight를 통해 사용 가능)에서 액세스할 수 있습니다. 개별 파일 크기 또는 조합된 파일 크기가 Azure Storage에서 지원하는 크기를 초과하는 경우 Azure Storage 대신 Data Lake Store를 사용할 수 있습니다. 그러나 Spark, HiveMapReduce에 대한 특정 지침과 함께 HDInsight 클러스터의 기본 스토리지로 Azure Data Lake Storage Gen1을 사용할 때 따라야 하는 성능 튜닝 지침이 있습니다. 또한 Azure Data Lake Storage Gen1의 지역 가용성을 확인해야 합니다. Azure Storage만큼 많은 지역에서 사용할 수 없고 HDInsight 클러스터와 동일한 지역에 있어야 하기 때문입니다.

Azure Data Lake Analytics와 결합된 Azure Data Lake Storage Gen1은 저장된 데이터에 대한 분석을 지원하도록 설계되었으며 데이터 분석 시나리오의 성능을 위해 조정되었습니다. Azure Data Lake Storage Gen1은 PolyBase 기능을 사용하여 Azure Synapse를 통해 액세스할 수도 있습니다.

Azure Cosmos DB

Azure Cosmos DB는 전 세계에 배포된 Microsoft의 다중 모델 데이터베이스입니다. Azure Cosmos DB는 전 세계 어디서나 99 백분위수의 한 자리 밀리초 대기 시간을 보장하고, 제대로 정의된 여러 일관성 모델을 제공하여 성능을 미세 조정하고, 멀티 호밍 기능으로 고가용성을 보장합니다.

Azure Cosmos DB는 스키마에 구애받지 않습니다. 또한 사용자가 스키마 및 인덱스 관리를 처리하지 않아도 되도록 모든 데이터를 자동으로 인덱싱합니다. 또한 기본적으로 문서, 키-값, 그래프 및 열 패밀리 데이터 모델을 지원하는 다중 모델입니다.

Azure DB Cosmos 기능은 다음과 같습니다.

HDInsight의 HBase

Apache HBase는 Hadoop을 기반으로 하고 Google BigTable 이후에 모델링된 오픈 소스 NoSQL 데이터베이스입니다. HBase는 열 패밀리로 구성된 스키마 없는 데이터베이스에서 구조화되지 않은/반구조화된 대량 데이터에 대해 임의 액세스 및 강력한 일관성을 제공합니다.

데이터는 테이블의 행에 저장되고 행 내의 데이터는 열 제품군으로 그룹화됩니다. HBase는 사용 전에 열과 열에 저장되는 데이터 형식을 정의할 필요가 없다는 점에서 스키마 없는 데이터베이스입니다. 오픈 소스 코드는 수천 대의 노드에 있는 페타바이트 크기의 데이터를 처리할 수 있을 정도로 선형으로 확장됩니다. Hadoop 에코시스템의 분산 애플리케이션이 제공하는 데이터 중복, 일괄 처리 및 기타 기능을 사용할 수 있습니다.

HDInsight 구현은 HBase의 규모 확장 아키텍처를 활용하여 테이블 자동 분할, 읽기 및 쓰기에 대한 강력한 일관성 및 자동 장애 조치(Failover)를 제공합니다. 읽기를 위한 메모리 내 캐싱과 쓰기를 위한 높은 처리량 스트리밍을 통해 성능이 향상됩니다. 대부분의 경우 다른 HDInsight 클러스터 및 애플리케이션이 테이블에 직접 액세스할 수 있도록 가상 네트워크 내에 HBase 클러스터를 만들 수 있습니다.

Azure Data Explorer

Azure Data Explorer는 로그 및 원격 분석 데이터에 사용 가능한 빠르고 확장성이 우수한 데이터 탐색 서비스입니다. 최신 소프트웨어에서 생성되는 많은 데이터 스트림을 처리할 수 있으므로 데이터를 수집, 저장 및 분석할 수 있습니다. Azure 데이터 탐색기는 웹 사이트, 애플리케이션, IoT 디바이스 등과 같은 데이터 원본의 다양한 대규모 데이터를 분석하는 데 적합합니다. 이 데이터는 진단, 모니터링, 보고, 기계 학습 및 추가 분석 기능에 사용됩니다. Azure Data Explorer를 사용하면 이 데이터를 쉽게 수집할 수 있고 데이터에 대한 복잡한 임시 쿼리를 몇 초 안에 처리할 수 있습니다.

Azure Data Explorer는 수집 및 쿼리 처리량을 증가시키기 위해 선형으로 확장할 수 있습니다. Azure Data Explorer 클러스터는 개인 네트워크를 사용하도록 설정하기 위해 Virtual Network에 배포할 수 있습니다.

주요 선택 조건

선택 옵션의 범위를 좁히려면 먼저 다음 질문에 답변합니다.

  • 모든 종류의 텍스트 또는 이진 데이터에 대한 고속의 관리되는 클라우드 기반 스토리지가 필요한가요? 그렇다면 파일 스토리지 또는 분석 옵션 중 하나를 선택합니다.

  • 병렬 분석 워크로드 및 높은 처리량/IOPS에 대해 최적화된 파일 스토리지가 필요한가요? 그렇다면 분석 워크로드 성능에 맞춰 조정되는 옵션을 선택합니다.

  • 스키마 없는 데이터베이스에 구조화되지 않았거나 반구조화된 데이터를 저장해야 하나요? 그렇다면 비관계형 또는 분석 옵션 중 하나를 선택합니다. 인덱싱 및 데이터베이스 모델에 대한 옵션을 비교합니다. 저장해야 하는 데이터의 형식에 따라, 주 데이터베이스 모델이 가장 큰 요인이 될 수 있습니다.

  • 사용자의 지역에서 이 서비스를 사용할 수 있나요? 각 Azure 서비스에 대한 지역별 가용성을 확인합니다. 지역별 사용 가능 제품을 참조하세요.

기능 매트릭스

다음 표에서는 주요 기능 차이점을 요약해서 보여 줍니다.

파일 스토리지 기능

기능 Azure Data Lake Storage Gen1 Azure Blob Storage 컨테이너
목적 빅 데이터 분석 워크로드에 대해 최적화된 스토리지 다양한 스토리지 시나리오에 대한 범용 개체 스토리지
사용 사례 일괄 처리, 스트리밍 분석 및 로그 파일, IoT 데이터, 클릭 스트림, 대형 데이터 세트 등과 같은 기계 학습 데이터 애플리케이션 백 엔드, 백업 데이터, 스트리밍용 미디어 스토리지 및 범용 데이터 등과 같은 모든 종류의 텍스트 또는 이진 데이터
구조체 계층적 파일 시스템 단일 구조 네임스페이스를 가진 개체 저장소
인증 Microsoft Entra ID 기반 공유 비밀 기반 계정 액세스 키공유 액세스 서명 키, Azure RBAC(Azure 역할 기반 액세스 제어)
인증 프로토콜 OAuth 2.0. 호출에는 Microsoft Entra ID에서 발급한 유효한 JWT(JSON 웹 토큰)가 포함되어야 합니다. HMAC(해시 기반 메시지 인증 코드). 호출은 HTTP 요청 일부를 통해 Base64 인코딩된 SHA-256 해시를 포함해야 합니다.
권한 부여 POSIX ACL(액세스 제어 목록). Microsoft Entra ID를 기반으로 하는 ACL은 파일 및 폴더 수준을 설정할 수 있습니다. 계정 수준 인증의 경우 계정 액세스 키를 사용합니다. 계정, 컨테이너 또는 Blob 권한 부여의 경우 공유 액세스 서명 키를 사용합니다.
감사 사용 가능. 사용 가능
미사용 암호화 투명한, 서버 쪽 투명한, 서버 쪽, 클라이언트 쪽 암호화
개발자 SDK .NET, Java, Python, Node.js .NET, Java, Python, Node.js, c + +, Ruby
분석 워크로드 성능 병렬 분석 워크로드, 높은 처리량 및 IOPS에 대해 최적화된 성능 분석 워크로드에 대해 최적화되지 않음
크기 한도 계정 크기, 파일 크기 또는 파일 수에 한도가 없음 문서화된 특정 한도 여기
지리적 중복 LRS(로컬 중복), GRS(전역 중복), RA-GRS(읽기 액세스 전역 중복), ZRS(영역 중복). LRS(로컬 중복), GRS(전역 중복), RA-GRS(읽기 액세스 전역 중복), ZRS(영역 중복). 자세한 내용은 여기 참조

NoSQL 데이터베이스 기능

기능 Azure Cosmos DB HDInsight의 HBase
주 데이터베이스 모델 문서 저장소, 그래프, 키-값 저장소, 넓은 열 저장소 넓은 열 저장소
보조 인덱스
SQL 언어 지원 예(Phoenix JDBC 드라이버 사용)
Consistency 강력, 제한된 부실, 세션, 일관적인 접두사, 최종 강력
네이티브 Azure Functions 통합
자동 글로벌 배포 아니요 HBase 클러스터 복제를 최종 일관성을 갖는 지역 간에 구성할 수 있습니다.
가격 책정 모델 탄력적으로 확장 가능한 RU(요청 단위)에 필요에 따라 초당 요금 부과, 탄력적으로 확장 가능한 스토리지 HDInsight 클러스터에 대해 분단위 가격 책정(수평 노드 확장), 스토리지

분석 데이터베이스 기능

기능 Azure Data Explorer
주 데이터베이스 모델 관계형(열 저장소), 원격 분석 및 시계열 저장소
SQL 언어 지원
가격 책정 모델 탄력적으로 확장 가능한 클러스터 인스턴스
인증 Microsoft Entra ID 기반
미사용 암호화 지원됨, 고객 관리형 키
분석 워크로드 성능 병렬 분석 워크로드에 대해 최적화된 성능입니다.
크기 한도 선형으로 확장 가능

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

다음 단계