SQL Server 빅 데이터 클러스터에서 HDFS 계층화 구성

아티클
04/01/2024

적용 대상: SQL Server 2019(15.x)

HDFS 계층화는 HDFS에서 외부 HDFS 호환 파일 시스템을 탑재하는 기능을 제공합니다. 이 문서에서는 SQL Server 빅 데이터 클러스터 대해 HDFS 계층화를 구성하는 방법을 설명합니다. 현재는 Azure Data Lake Storage Gen2 및 Amazon S3에 대한 연결을 지원합니다.

Important

Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. Software Assurance를 사용하는 SQL Server 2019의 모든 기존 사용자는 플랫폼에서 완전히 지원되며, 소프트웨어는 지원 종료 시점까지 SQL Server 누적 업데이트를 통해 계속 유지 관리됩니다. 자세한 내용은 공지 블로그 게시물 및 Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.

HDFS 계층화 개요

계층화를 사용하는 경우 애플리케이션은 데이터가 로컬 HDFS에 있는 것처럼 다양한 외부 저장소의 데이터에 원활하게 액세스할 수 있습니다. 탑재는 메타데이터 작업으로, 외부 파일 시스템의 네임스페이스를 설명하는 메타데이터가 로컬 HDFS에 복사됩니다. 이 메타데이터에는 외부 디렉터리와 파일에 대한 정보와 해당 사용 권한 및 ACL이 포함됩니다. 해당하는 데이터는 쿼리 등을 통해 데이터 자체에 액세스할 때만 주문형으로 복사됩니다. 이제 SQL Server 빅 데이터 클러스터에서 외부 파일 시스템 데이터에 액세스할 수 있습니다. 클러스터의 HDFS에 저장된 모든 로컬 데이터에서 실행하는 것과 동일한 방식으로 이 데이터에 대해 Spark 작업 및 SQL 쿼리를 실행할 수 있습니다.

이 7분 분량의 비디오에서는 HDFS 계층화에 대한 개요를 제공합니다.

캐싱

현재 기본적으로 총 HDFS 스토리지의 1%가 탑재된 데이터의 캐싱용으로 예약됩니다. 캐싱은 탑재 전체의 전역 설정입니다.

참고 항목

HDFS 계층화는 Microsoft에서 개발한 기능이며, 이전 버전은 Apache Hadoop 3.1 배포의 일부로 출시되었습니다. 자세한 내용은 https://issues.apache.org/jira/browse/HDFS-9806의 세부 정보를 참조하세요.

다음 섹션에는 Azure Data Lake Storage Gen2 데이터 원본을 사용하여 HDFS 계층화를 구성하는 방법의 예제가 나와 있습니다.

보충

HDFS 계층화는 새로 고침을 지원합니다. 원격 데이터의 최신 스냅샷에 대한 기존 탑재를 새로 고칩니다.

필수 조건

빅 데이터 클러스터 배포
빅 데이터 도구
- azdata
- kubectl

탑재 지침

Azure Data Lake Storage Gen2 및 Amazon S3에 대한 연결을 지원합니다. 이러한 스토리지 유형에 대한 탑재 방법의 지침은 다음 문서에서 확인할 수 있습니다.

알려진 문제 및 제한 사항

다음 목록은 SQL Server 빅 데이터 클러스터에서 HDFS 계층화를 사용하는 경우의 알려진 이슈 및 현재 제한 사항을 제공합니다.

탑재가 오랫동안 CREATING 상태에 멈춰 있는 경우에는 실패했을 가능성이 큽니다. 이 경우 명령을 취소하고 필요한 경우 탑재를 삭제합니다. 매개 변수 및 자격 증명이 올바른지 확인한 후 다시 시도합니다.
기존 디렉터리에 탑재를 만들 수 없습니다.
기존 탑재 내에는 탑재를 만들 수 없습니다.
탑재 지점의 상위 항목이 없으면 r-xr-xr-x(555)로 기본값이 지정된 사용 권한으로 상위 항목이 생성됩니다.
탑재되는 파일의 수와 크기에 따라 탑재를 만드는 데 다소 시간이 걸릴 수 있습니다. 이 프로세스 중에는 사용자가 탑재 아래의 파일을 확인할 수 없습니다. 탑재를 만드는 동안 모든 파일이 임시 경로(기본값: /_temporary/_mounts/<mount-location>)에 추가됩니다.
탑재 만들기 명령은 비동기적입니다. 명령을 실행한 후 탑재 상태를 확인하여 상황을 이해할 수 있습니다.
탑재를 만들 때 --mount-path에 사용되는 인수는 기본적으로 탑재의 고유 식별자입니다. 다음 명령에서는 동일한 문자열(있는 경우 끝에 "/"포함)을 사용해야 합니다.
탑재는 읽기 전용입니다. 탑재 아래에는 디렉터리 또는 파일을 만들 수 없습니다.
변경할 수 있는 디렉터리 및 파일은 탑재하지 않는 것이 좋습니다. 탑재를 만든 후에 원격 위치에 대한 변경이나 업데이트는 HDFS의 탑재에 반영되지 않습니다. 원격 위치에서 변경이 수행되면 업데이트된 상태를 반영하도록 탑재를 삭제했다가 다시 만들도록 선택할 수 있습니다.

다음 단계

SQL Server 2019 빅 데이터 클러스터에 대한 자세한 내용은 SQL Server 2019 빅 데이터 클러스터 소개를 참조하세요.