SQL Server 빅 데이터 클러스터의 스토리지 풀 소개
적용 대상: SQL Server 2019(15.x)
이 문서에서는 SQL Server 빅 데이터 클러스터에서 SQL Server 스토리지 풀의 역할을 설명합니다. 다음 섹션에서는 스토리지 풀의 아키텍처 및 기능을 설명합니다.
중요
Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. 자세한 내용은 Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.
스토리지 풀 아키텍처
스토리지 풀은 SQL Server 빅 데이터 클러스터의 로컬 HDFS(Hadoop) 클러스터입니다. 구조화되지 않은 데이터 및 반구조화된 데이터의 영구 스토리지를 제공합니다. Parquet 또는 구분된 텍스트와 같은 데이터 파일은 스토리지 풀에 저장할 수 있습니다. 스토리지를 유지하기 위해 풀의 각 Pod에 영구적 볼륨이 연결되어 있습니다. 스토리지 풀 파일은 SQL Server에서 PolyBase를 통해 액세스하거나 Apache Knox Gateway를 사용하여 직접 액세스할 수 있습니다.
기존의 HDFS 설정은 스토리지가 연결된 상용 하드웨어 컴퓨터의 집합으로 구성됩니다. 내결함성 및 병렬 처리 활용을 위해 노드 전체에 걸쳐 데이터가 블록으로 분산됩니다. 클러스터의 노드 중 하나는 이름 노드로 작동하며, 데이터 노드에 있는 파일에 대한 메타데이터 정보를 포함합니다.
스토리지 풀은 HDFS 클러스터의 구성원인 스토리지 노드로 구성됩니다. 스토리지 풀은 다음 컨테이너를 호스트하는 각 Pod에서 하나 이상의 Kubernetes Pod를 실행합니다.
- 영구적 볼륨(스토리지)에 연결된 Hadoop 컨테이너. 이 형식의 모든 컨테이너는 함께 Hadoop 클러스터를 형성합니다. Hadoop 컨테이너 내에는 주문형 Apache Spark 작업자 프로세스를 만들 수 있는 YARN 노드 관리자 프로세스가 있습니다. Spark 헤드 노드는 Hive metastore, Spark 기록 및 YARN 작업 기록 컨테이너를 호스트합니다.
- OpenRowSet 기술을 사용하여 HDFS에서 데이터를 읽는 SQL Server 인스턴스.
- 메트릭 데이터를 수집하기 위한
collectd
. - 로그 데이터를 수집하기 위한
fluentbit
.
담당 작업
스토리지 노드에서 담당하는 작업은 다음과 같습니다.
- Apache Spark를 통한 데이터 수집
- HDFS의 데이터 스토리지(Parquet 및 구분 기호로 분리된 텍스트 형식) HDFS 데이터가 SQL BDC의 모든 스토리지 노드에 분산되므로 HDFS는 데이터 지속성도 제공합니다.
- HDFS 및 SQL Server 엔드포인트를 통한 데이터 액세스
데이터 액세스
스토리지 풀의 데이터에 액세스하는 주요 방법은 다음과 같습니다.
- Spark 작업.
- PolyBase 컴퓨팅 노드를 사용하고 HDFS 노드에서 실행되는 SQL Server 인스턴스를 사용하여 데이터를 쿼리하도록 허용하기 위해 SQL Server 외부 테이블 사용.
다음을 사용하여 HDFS와 상호 작용할 수도 있습니다.
- Azure Data Studio.
- Azure Data CLI(
azdata
). - Hadoop 컨테이너에 대한 명령을 실행하기 위한 kubectl.
- HDFS http 게이트웨이.
다음 단계
SQL Server 빅 데이터 클러스터에 대한 자세한 내용은 다음 리소스를 참조하세요.