SQL Server 빅 데이터 클러스터 FAQ

이 문서에서는 SQL Server 빅 데이터 클러스터 개념, 기능, 배포, 지원 가능성 및 도구에 관해 자주 묻는 질문과 대답을 제공합니다.

모범 사례

파일 위치와 관련해서 권장되는 모범 사례는 무엇인가요?

운영 체제 미설치 머신의 Windows 또는 Linux에서 SQL Server를 구성하는 경우와 비교하여 이 측면의 유연성은 떨어집니다. Kubernetes 환경에서 해당 아티팩트는 추상화되며 이식 가능해야 합니다. 현재 데이터 및 로그를 위해 구성 가능한 PV(영구적 볼륨) 2개가 Pod당 제공됩니다. 자세한 내용은 Kubernetes에서 SQL Server 빅 데이터 클러스터를 사용한 데이터 지속성을 참조하세요.

SQL Server 빅 데이터 클러스터에서 트랜잭션 로그 백업을 수행해야 하나요?

복구 모델이나 HA 구성에 따라 SQL Server 마스터 인스턴스에서 사용자 데이터베이스에 대해서만 로그 백업을 수행하면 됩니다. 데이터 풀 데이터베이스는 단순 복구 모델만 사용합니다. PolyBase용으로 만든 DW* 데이터베이스에도 동일하게 적용됩니다.

분산 쿼리가 실제로 컴퓨팅 풀을 사용하고 있는지 모니터링하려면 어떻게 해야 하나요?

향상된 기존 PolyBase DMV를 빅 데이터 클러스터 시나리오에 사용할 수 있습니다. 자세한 내용은 PolyBase 모니터링 및 문제 해결을 참조하세요.

Kubernetes API 서버에 대한 kubectl을 통해 빅 데이터 클러스터 리소스를 직접 구성하고 관리할 수 있나요?

Kubernetes API 또는 kubectl을 사용하여 일부 설정을 수정할 수는 있지만 지원되지 않거나 권장되지 않습니다. azdata를 통해 모든 빅 데이터 클러스터 관리 작업을 실행해야 합니다.

HDFS에 저장된 데이터를 백업하려면 어떻게 해야 하나요?

webHDFS를 통해 하드웨어 수준 스토리지 스냅샷 생성 또는 복사/동기화를 사용하도록 설정하는 솔루션을 사용할 수 있습니다. azdata bdc hdfs cp를 사용할 수도 있습니다. 자세한 내용은 azdata bdc hdfs를 참조하세요.

개념 및 기능

저장 프로시저를 ‘스케일 아웃’하는 방법이 있나요? 예를 들어 컴퓨팅 풀에서 실행되게 하는 방법이 있나요?

지금은 없습니다. 한 가지 옵션은 Always On 가용성 그룹에 SQL Server를 배포하는 것입니다. 그러면 읽기 가능한 보조 복제본을 사용하여 일부 프로세스(예: ML 학습/점수 매기기, 유지 관리 활동 등)를 실행할 수 있습니다.

풀의 Pod를 동적으로 스케일링하려면 어떻게 해야 하나요?

현재 지원되는 시나리오는 아닙니다.

데이터 풀에 저장된 외부 테이블을 백업할 수 있나요?

데이터 풀 인스턴스의 데이터베이스에는 외부 테이블에 대한 메타데이터가 없습니다. 사용자 데이터베이스와 유사합니다. 백업/복원할 수는 있지만 일관성 없는 결과를 방지하려면 SQL 마스터 인스턴스에서 메타데이터 데이터베이스의 외부 테이블 메타데이터가 동기화되었는지 확인해야 합니다.

데이터 풀이 분할을 제공하나요?

데이터 풀은 분산 테이블 개념입니다. 분할은 일반적으로 OLTP 개념으로 참조되며 현재 지원되지 않습니다.

원시 데이터 스토리지에 데이터 풀이나 스토리지 풀을 사용해야 하는 경우는 언제인가요?

풀이라는 용어는 같은 유형의 서비스 또는 애플리케이션 컬렉션을 설명하도록 예약되었습니다. 예를 들어 데이터 풀은 상태 저장 SQL Server 컴퓨팅 세트이고, 스토리지와 스토리지 풀은 HDFS 및 Spark 서비스 세트입니다. SQL Server 마스터는 가용성 그룹에서 구성할 수 있는 단일 인스턴스 또는 여러 인스턴스입니다. SQL Server 마스터 인스턴스는 Linux의 일반적인 SQL Server 인스턴스로, Linux에서 사용 가능한 모든 기능을 해당 인스턴스에서 사용할 수 있습니다. 먼저 데이터 모델, 엔터티, 주로 엔터티에 대해 실행되는 서비스/애플리케이션으로 시작해야 합니다. 모든 데이터를 SQL Server, HDFS 또는 데이터 풀과 같은 한 장소에 저장할 필요는 없습니다. 데이터 분석을 기반으로 하여 데이터 대부분을 HDFS에 저장하고, 데이터를 더 효율적인 형식으로 처리하여 다른 서비스에 노출할 수 있습니다. 나머지 데이터는 SQL 마스터 인스턴스에 저장됩니다.

SQL Server 빅 데이터 클러스터는 GPU 기반 딥 러닝 라이브러리와 계산(PyTorch, Keras, 특정 이미지 라이브러리 등)을 지원하나요?

현재 지원되는 시나리오는 아닙니다.

하나의 풀에 대해 볼륨 클레임을 여러 개 구성할 수 있는 방법이 있나요?

각 Pod에서 두 개의 PV(영구적 볼륨)만 사용할 수 있습니다. OS 수준에서 볼륨을 추상화하고 영구적 스토리지에 사용할 수 있습니다. 예를 들어 여러 개의 디스크를 사용하여 RAID 0 OS 파티션을 만들고 로컬 스토리지 프로비저닝 프로그램을 통해 영구적 볼륨에 사용할 수 있습니다. 현재 Pod당 더 많은 PV를 사용할 방법은 없습니다. PV는 컨테이너 내 디렉터리에 매핑되고 이 매핑은 고정됩니다. 영구적 볼륨에 대한 자세한 내용은 Kubernetes의 영구적 볼륨 설명서를 참조하세요.

공급자와 디스크를 여러 개 구성하는 경우 HDFS 구성이 모든 데이터 볼륨 클레임으로 업데이트되나요?

배포 시 특정 스토리지 클래스를 사용하도록 스토리지 풀을 구성할 수 있습니다. Kubernetes에서 SQL Server 빅 데이터 클러스터를 사용한 데이터 지속성을 참조하세요.

Ceph 기반 스토리지에 액세스하는 옵션은 무엇인가요?

HDFS 계층화를 사용하면 S3 기반 프로토콜과 투명하게 통합할 수 있습니다. 자세한 내용은 빅 데이터 클러스터의 HDFS 계층화를 위해 S3을 탑재하는 방법을 참조하세요.

업그레이드 후 HDFS의 데이터가 보존되나요?

예, 데이터는 영구적 볼륨에 백업되고 업그레이드는 단순히 기존 Pod를 새 이미지로 배포하기 때문에 보존됩니다.

HDFS 계층화는 캐시를 어떻게 제어하나요?

HDFS 계층화를 사용하면 빅 데이터 클러스터에서 실행되는 로컬 HDFS 내에 데이터가 캐시되므로 사용자가 모든 데이터를 가져올 필요 없이 대규모 데이터 레이크에 연결할 수 있습니다. 캐시에 할당되는 공간 크기를 구성할 수 있으며, 현재 기본값은 2%로 설정되어 있습니다. 데이터는 캐시에서 유지 관리되지만 임계값을 초과하면 제거됩니다. 보안도 레이크에서 유지 관리되며 모든 ACL이 적용됩니다. 자세한 내용은 빅 데이터 클러스터에서 HDFS 계층화 구성을 참조하세요.

SQL Server 2019를 사용하여 Azure Data Lake Store Gen2를 시각화할 수 있나요? 이 통합은 폴더 수준 사용 권한을 처리하나요?

예, HDFS 계층화를 사용하여 ADLS Gen2에 저장된 데이터를 가상화할 수 있습니다. HDFS 계층화가 ADLS Gen2에 탑재되면 사용자는 HDFS 데이터를 쿼리하고 데이터에 대해 Spark 작업을 실행할 수 있습니다. 탑재된 스토리지는 빅 데이터 클러스터용 HDFS 클러스터에서 --mount-path로 지정된 위치에 표시되고, 사용자는 로컬 스토리지로 작업하는 것처럼 탑재 경로로 작업할 수 있습니다. 자세한 내용은 빅 데이터 클러스터에서 HDFS 계층화 구성을 참조하세요. HDFS 계층 권한에 대한 자세한 내용은 SQL Server 빅 데이터 클러스터에 대한 HDFS 권한 관리를 참조하세요.

AKS(Azure Kubernetes Service)의 마스터 노드에 대한 기본 고가용성 및/또는 중복성 설정은 무엇인가요?

AKS 컨트롤 플레인은 99.95% 가용성을 보장하는 작동 시간 SLA를 지원합니다. AKS 클러스터 노드(작업자 노드)는 가용성 영역을 사용합니다. 자세한 내용은 AKS 가용성 영역을 참조하세요. AZ(가용성 영역)는 데이터 센터 오류로부터 애플리케이션과 데이터를 보호하는 Azure의 고가용성 제공입니다. AKS는 가용성 영역을 사용하지 않는 클러스터에 대해 99.9% 가용성을 지원합니다. 자세한 내용은 AKS(Azure Kubernetes Service)에 대한 SLA를 참조하세요.

YARN 및 Spark 작업 기록 로그를 유지하는 방법이 있나요?

sparkhead를 다시 시작해도 로그는 HDFS에 있으므로 손실되지 않습니다. /gateway/default/sparkhistory UI에서 Spark 기록 로그가 계속 표시되어야 합니다. Yarn 컨테이너 로그의 경우 Yarn RM이 다시 시작되기 때문에 Yarn UI에는 해당 앱이 표시되지 않지만 Yarn 로그는 계속 HDFS에 있으므로 Spark 기록 서버에서 로그에 연결할 수 있습니다. Spark 앱을 진단하려면 항상 Spark 기록 서버를 진입점으로 사용해야 합니다.

풀에 대해 캐싱 기능을 해제하는 방법이 있나요?

기본적으로 총 HDFS 스토리지의 1%가 탑재된 데이터의 캐싱용으로 예약됩니다. 캐싱은 탑재 전체의 전역 설정입니다. 현재 캐싱 기능을 해제하는 방법은 노출되지 않지만 hdfs-site.dfs.provided.cache.capacity.fraction 설정을 통해 백분율을 구성할 수 있습니다. 이 설정은 제공된 저장소의 데이터를 캐시하는 데 사용할 수 있는 클러스터의 총용량 비율을 제어합니다. 수정하려면 배포 후 빅 데이터 클러스터 설정을 구성하는 방법을 참조하세요. 자세한 내용은 SQL Server 빅 데이터 클러스터에서 HDFS 계층화 구성을 참조하세요.

SQL Server 2019 빅 데이터 클러스터에서 SQL 저장 프로시저를 예약하려면 어떻게 해야 하나요?

빅 데이터 클러스터의 SQL Server 마스터 인스턴스에서 SQL Server 에이전트 서비스를 사용할 수 있습니다.

빅 데이터 클러스터는 IoT 사용 사례에서 생성된 것과 같은 기본 시계열 데이터 시나리오를 지원하나요?

현재 빅 데이터 클러스터의 InfluxDB는 빅 데이터 클러스터 내에서 수집된 모니터링 데이터를 저장하는 데만 사용되고 외부 엔드포인트로 노출되지 않습니다.

제공된 InfluxDB를 고객 데이터용 시계열 데이터베이스로 사용할 수 있나요?

현재 빅 데이터 클러스터의 InfluxDB는 빅 데이터 클러스터 내에서 수집된 모니터링 데이터를 저장하는 데만 사용되고 외부 엔드포인트로 노출되지 않습니다.

가용성 그룹에 데이터베이스를 추가하려면 어떻게 해야 하나요?

빅 데이터 클러스터에서 HA 구성은 복제본 간에 복제되는 시스템 데이터베이스도 포함하는 containedag라는 가용성 그룹을 만듭니다. CREATE DATABASE 또는 RESTORE 워크플로의 결과로 만들어진 데이터베이스는 포함된 AG에 자동으로 추가되고 시드됩니다. SQL Server 2019(15.0) CU2 이전 버전에서는 빅 데이터 클러스터의 물리적 인스턴스에 연결하고 데이터베이스를 복원하여 containedag에 추가해야 합니다. 자세한 내용은 고가용성을 사용하여 SQL Server 빅 데이터 클러스터 배포를 참조하세요.

빅 데이터 클러스터 내에서 실행되는 구성 요소에 대해 코어/메모리 리소스를 구성할 수 있나요?

현재 SQL Server에서와 마찬가지로 sp_configure를 사용하여 SQL 인스턴스의 메모리를 설정할 수 있습니다. 코어의 경우 ALTER SERVER CONFIGURATION SET PROCESS AFFINITY를 사용할 수 있습니다. 기본적으로 호스트의 모든 CPU가 컨테이너에 표시되며, 현재 Kubernetes를 사용하여 리소스 한도를 지정할 방법은 없습니다. 컴퓨팅 풀/데이터 풀/스토리지 풀의 경우 SQL Server 마스터 인스턴스에서 EXECUTE AT DATA_SOURCE 문을 사용하여 구성할 수 있습니다.

Kubernetes 작업자 노드 중 하나가 종료되거나 중단되면 어떻게 되나요?

충분한 리소스가 있을 경우 선호도가 해당 작업자 노드로 설정되지 않은 Pod는 Kubernetes 클러스터의 다른 노드로 이동됩니다. 그렇지 않으면 Pod를 사용할 수 없으므로 중단이 발생합니다.

Kubernetes 클러스터에 노드를 추가하면 빅 데이터 클러스터가 자동으로 리밸런스되나요?

이 작업은 Kubernetes에만 종속됩니다. 노드 레이블을 사용한 Pod 배치 외에 빅 데이터 클러스터 내에서의 Kubernetes 리소스 리밸런싱을 제어할 다른 메커니즘은 없습니다.

Kubernetes 클러스터에서 노드를 제거할 경우 빅 데이터 클러스터 리소스에 어떤 영향을 주게 되나요?

이 작업은 호스트 노드를 종료하는 것과 같습니다. taint 프로세스를 사용하여 Kubernetes에서 작업을 오케스트레이션하는 메커니즘이 있으며, 일반적으로 업그레이드 또는 노드 유지 관리를 위해 수행됩니다. 자세한 내용은 taint 및 toleration에 대한 Kubernetes 설명서를 참조하세요.

빅 데이터 클러스터와 함께 제공되는 Hadoop은 데이터 복제를 처리하나요?

예, 복제 계수는 사용 가능한 HDFS 구성 중 하나입니다. 자세한 내용은 영구적 볼륨 구성을 참조하세요.

기능 및 통합 측면에서 빅 데이터 클러스터가 Synapse와 겹치나요?

사용 사례와 요구 사항에 따라 다릅니다. 빅 데이터 클러스터는 Microsoft 지원 Spark 및 HDFS 외에도 전체 SQL Server 노출 영역을 온-프레미스에서 제공합니다. 빅 데이터 클러스터를 사용하면 SQL Server 고객이 분석/빅 데이터에 통합할 수 있습니다. Azure Synapse는 순수하게, 스케일 아웃 분석에 중점을 두고 클라우드에서 최고 수준의 고객 환경을 관리형 서비스로 제공하는 분석 플랫폼입니다. Azure Synapse에서 운영 워크로드는 분석 대상이 아닙니다. 빅 데이터 클러스터는 데이터베이스 내 분석 시나리오를 제공하려고 하며, 운영 저장소에 훨씬 더 가깝습니다.

SQL Server는 SQL Server 빅 데이터 클러스터에서 HDFS를 스토리지로 사용하고 있나요?

SQL Server 인스턴스의 데이터베이스 파일은 HDFS에 저장되지 않지만, SQL Server에서 외부 테이블 인터페이스를 사용하여 HDFS를 쿼리할 수 있습니다.

각 데이터 풀의 분산 테이블에 데이터를 저장하는 데 사용할 수 있는 배포 옵션은 무엇인가요?

ROUND_ROBIN 및 REPLICATED. ROUND_ROBIN이 기본값입니다. HASH는 사용할 수 없습니다.

빅 데이터 클러스터에 Spark Thrift 서버가 포함되어 있나요? 포함된 경우 Hive 메타스토어 테이블에 연결할 수 있도록 ODBC 엔드포인트가 노출되나요?

현재 HMS(Hive 메타스토어)는 Thrift 프로토콜을 통해 노출됩니다. 프로토콜을 문서화하지만, 현재 ODBC 엔드포인트는 열지 않았습니다.  Hive 메타스토어 HTTP 프로토콜을 통해 액세스할 수 있습니다. 자세한 내용은 Hive 메타스토어 HTTP 프로토콜을 참조하세요.

데이터 로드

SnowFlake의 데이터를 빅 데이터 클러스터로 수집할 수 있나요?

SQL Server on Linux(빅 데이터 클러스터의 SQL Server 마스터 인스턴스에도 적용됨)는 타사 ODBC 드라이버(SnowFlake, DB2, PostgreSQL 등)를 설치하여 쿼리할 수 있도록 하는 제네릭 ODBC 데이터 원본을 지원하지 않습니다. 이 기능은 현재 Windows의 SQL Server 2019(15.0)에서만 사용할 수 있습니다. 빅 데이터 클러스터에서 JDBC를 사용하여 Spark를 통해 데이터를 읽고 MSSQL Spark 커넥터를 사용하여 SQL Server로 수집할 수 있습니다.

사용자 지정 ODBC 데이터 원본을 사용하여 데이터를 빅 데이터 클러스터로 수집할 수 있나요?

SQL Server on Linux(빅 데이터 클러스터의 SQL Server 마스터 인스턴스에도 적용됨)는 타사 ODBC 드라이버(SnowFlake, DB2, PostgreSQL 등)를 설치하여 쿼리할 수 있도록 하는 제네릭 ODBC 데이터 원본을 지원하지 않습니다.

CTAS를 실행할 때마다 새 테이블을 만드는 대신 PolyBase CTAS를 사용하여 데이터를 동일한 테이블로 가져오려면 어떻게 해야 하나요?

매번 새 테이블을 만들 필요가 없도록 INSERT..SELECT 방법을 사용할 수 있습니다.

데이터를 마스터 인스턴스에 로컬 테이블로 직접 로드하는 대신 데이터 풀에 로드할 경우의 장점과 고려 사항은 무엇인가요?

SQL Server 마스터 인스턴스에 분석 워크로드를 충족하기에 충분한 리소스가 있을 경우 항상 가장 빠른 옵션입니다. 데이터 풀은 분산 쿼리를 위해 실행을 다른 SQL 인스턴스로 오프로드하려는 경우에 유용합니다. 데이터 풀을 사용하여 Spark 실행기의 데이터를 여러 개의 SQL 인스턴스로 병렬 수집할 수도 있습니다. 따라서 HDFS(Hadoop 분산 파일 시스템)에서 생성되는 대규모 데이터 세트의 로드 성능은 일반적으로 단일 SQL Server 인스턴스로 수집되는 경우보다 더 뛰어납니다. 그러나 이 경우에도 SQL Server에 테이블이 여러 개 있을 수 있고 원하는 경우 병렬로 삽입할 수 있으므로 단정하기는 어렵습니다. 성능은 많은 요인에 따라 달라지며, 성능 측면에서 단일 지침이나 권장 사항은 없습니다.

데이터 풀 테이블 내의 데이터 배포를 모니터링하려면 어떻게 해야 하나요?

EXECUTE AT을 사용하여 sys.dm_db_partition_stats와 같은 DMV를 쿼리하면 각 로컬 테이블의 데이터를 가져올 수 있습니다.

curl이 파일을 HDFS에 업로드하는 유일한 옵션인가요?

아니요, azdata bdc hdfs cp를 사용할 수 있습니다. 루트 디렉터리를 제공하면 명령이 전체 트리를 재귀적으로 복사합니다. 원본/대상 경로만 변경하면 이 명령을 사용하여 인/아웃 복사가 가능합니다.

데이터를 데이터 풀에 로드하려면 어떻게 해야 하나요?

MSSQL Spark 커넥터 라이브러리를 사용하여 SQL 및 데이터 풀 수집을 지원할 수 있습니다. 단계별 연습은 자습서: Spark 작업을 사용하여 SQL Server 데이터 풀로 데이터 수집을 참조하세요.

많은 폴더/하위 폴더와 텍스트 파일을 포함하는 (Windows) 네트워크 경로에 많은 데이터가 있는 경우 빅 데이터 클러스터의 HDFS에 업로드하려면 어떻게 해야 하나요?

azdata bdc hdfs cp를 사용해 보세요. 루트 디렉터리를 제공하면 명령이 전체 트리를 재귀적으로 복사합니다. 원본/대상 경로만 변경하면 이 명령을 사용하여 인/아웃 복사가 가능합니다.

배포된 클러스터에서 스토리지 풀의 크기를 늘릴 수 있나요?

현재 이 작업을 수행할 azdata 인터페이스는 없습니다. 원하는 PVC의 크기를 수동으로 조정할 수 있는 옵션이 있습니다. 크기 조정은 복잡한 작업입니다. Kubernetes의 영구적 볼륨 설명서를 참조하세요.

데이터 가상화

연결된 서버 vs PolyBase를 사용해야 하는 경우는 언제인가요?

주요 차이점과 사용 사례는 PolyBase FAQ를 참조하세요.

지원되는 데이터 가상화 원본은 무엇인가요?

빅 데이터 클러스터는 SQL Server, Oracle, MongoDB, Teradata 등의 ODBC 원본에서 데이터 가상화를 지원합니다. AWS S3A와 ABFS(Azure Blob File System)뿐만 아니라 Azure Data Lake Store Gen2, S3 호환 스토리지와 같은 원격 저장소의 계층화도 지원합니다.

PolyBase를 사용하여 Azure SQL 데이터베이스에 저장된 데이터를 가상화할 수 있나요?

예, 빅 데이터 클러스터의 PolyBase를 사용하여 Azure SQL Database의 데이터에 액세스할 수 있습니다.

CREATE TABLE 문이 EXTERNAL이라는 키를 포함하는 이유는 무엇인가요? EXTERNAL은 표준 CREATE TABLE과 어떤 차이점이 있나요?

일반적으로 external 키워드는 데이터가 SQL Server 인스턴스에 있지 않음을 의미합니다. 예를 들어 HDFS 디렉터리 맨 위에 있는 스토리지 풀 테이블을 정의할 수 있습니다. 데이터는 데이터베이스 파일이 아니라 HDFS 파일에 저장되지만 외부 테이블은 HDFS 파일을 데이터베이스에 있는 것처럼 관계형 테이블로 쿼리하는 인터페이스를 제공했습니다.
외부 데이터에 액세스하는 이 개념을 데이터 가상화라고 합니다. 자세한 내용은 PolyBase를 사용한 데이터 가상화 소개를 참조하세요. HDFS에서 CSV 파일의 데이터를 가상화하는 방법에 대한 자습서는 빅 데이터 클러스터 [스토리지 풀에서 CSV 데이터 가상화]를 참조하세요.

SQL Server 빅 데이터 클러스터 내에서 실행되는 SQL Server를 사용한 데이터 가상화와 SQL Server를 사용한 데이터 가상화 간의 차이점은 무엇인가요?

외부 테이블이 데이터 풀을 가리키고 있는지, 아니면 스토리지 풀을 가리키고 있는지 쉽게 확인하려면 어떻게 해야 하나요?

데이터 원본 위치 접두사(예: sqlserver://, oracle://, sqlhdfs://, sqldatapool://)를 살펴보면 외부 테이블 유형을 확인할 수 있습니다.

배포

빅 데이터 클러스터 배포에 실패했습니다. 문제를 확인하려면 어떻게 해야 하나요?

빅 데이터 클러스터 구성에서 설정할 수 있는 모든 항목의 최종 목록이 있나요?

배포 시 수행할 수 있는 모든 사용자 지정은 클러스터 리소스 및 서비스에 대한 배포 설정 구성에 설명되어 있습니다. Spark의 경우 빅 데이터 클러스터에서 Apache Spark 및 Apache Hadoop 구성을 참조하세요.

SQL Server 빅 데이터 클러스터와 함께 SQL Server Analysis Services를 배포할 수 있나요?

아니요. 특히 SSAS(SQL Server Analysis Services)는 SQL Server on Linux에서 지원되지 않으므로 SSAS를 실행하려면 Windows 서버에 SQL Server 인스턴스를 설치해야 합니다.

EKS 또는 GKS에 빅 데이터 클러스터를 배포할 수 있나요?

빅 데이터 클러스터는 버전 1.13 이상을 기준으로 모든 Kubernetes 스택에서 실행할 수 있습니다. 그러나 EKS 또는 GKS에서는 빅 데이터 클러스터의 특정 유효성 검사가 수행되지 않았습니다.

빅 데이터 클러스터 내에서 실행되는 HDFS 및 Spark 버전은 무엇인가요?

Spark는 2.4, HDFS는 3.2.1입니다. 빅 데이터 클러스터에 포함된 오픈 소스 소프트웨어에 대한 자세한 내용은 오픈 소스 소프트웨어 참조를 참조하세요.

Spark에 라이브러리와 패키지를 설치하려면 어떻게 해야 하나요?

Spark에 패키지를 설치하기 위한 샘플 Notebook의 단계에 따라 작업 제출 시 패키지를 추가할 수 있습니다.

SQL Server 빅 데이터 클러스터에 R과 Python을 사용하려면 SQL Server 2019를 사용해야 하나요?

ML(Machine Learning) 서비스(R과 Python)는 SQL Server 2017부터 사용할 수 있습니다. SQL Server 빅 데이터 클러스터에서도 ML 서비스를 사용할 수 있습니다. 자세한 내용은 Python 및 R을 사용하는 SQL Server Machine Learning Services란?을 참조하세요.

라이선스

SQL Server 빅 데이터 클러스터에서 SQL Server 라이선스는 어떻게 작동하나요?

PDF를 다운로드하여 훨씬 더 자세히 설명하는 라이선스 가이드를 참조하세요.
요약을 보려면 SQL Server 라이선스: 빅 데이터 클러스터 | 노출되는 데이터 비디오를 시청하세요.

보안

빅 데이터 클러스터는 Microsoft Entra ID([이전의 Azure Active Directory](/entra/fundamentals/new-name))를 지원하나요?

지금은 없습니다.

통합 인증을 사용하여 빅 데이터 클러스터 마스터에 연결할 수 있나요?

예, 통합 인증(Active Directory 사용)을 사용하여 다양한 빅 데이터 클러스터 서비스에 연결할 수 있습니다. 자세한 내용은 Active Directory 모드에서 SQL Server 빅 데이터 클러스터 배포를 참조하세요. 빅 데이터 클러스터의 보안 개념도 참조하세요.

빅 데이터 클러스터 내에서 다양한 서비스의 새 사용자를 추가하려면 어떻게 해야 하나요?

기본 인증 모드(사용자 이름/암호)에서는 컨트롤러 또는 Knox 게이트웨이/HDFS 엔드포인트에 대해 여러 사용자를 추가할 수 없습니다. 해당 엔드포인트에서 지원되는 유일한 사용자는 루트입니다. SQL Server의 경우 다른 SQL Server 인스턴스와 마찬가지로 Transact-SQL을 사용하여 사용자를 추가할 수 있습니다. 엔드포인트에 AD 인증을 사용하여 빅 데이터 클러스터를 배포하는 경우 여러 사용자가 지원됩니다. 배포 시 AD 그룹을 구성하는 방법에 대한 자세한 내용은 여기를 참조하세요. 자세한 내용은 Active Directory 모드에서 SQL Server 빅 데이터 클러스터 배포를 참조하세요.

빅 데이터 클러스터가 최신 컨테이너 이미지를 끌어오도록 제한할 수 있는 아웃바운드 IP 범위가 있나요?

Azure IP 범위 및 서비스 태그 – 퍼블릭 클라우드에서 다양한 서비스가 사용하는 IP 주소를 검토할 수 있습니다. IP 주소는 주기적으로 회전합니다.
컨트롤러 서비스가 MCR(Microsoft Container Registry)에서 컨테이너 이미지를 끌어오려면 MicrosoftContainerRegistry 섹션에 지정된 IP 주소에 대한 액세스 권한을 부여해야 합니다. 또 다른 옵션은 프라이빗 Azure Container Registry를 설정하고 해당 위치에서 끌어오도록 빅 데이터 클러스터를 구성하는 것입니다. 이 경우 AzureContainerRegistry 섹션에 지정된 IP 주소를 노출해야 합니다. 이 작업을 수행하는 방법과 스크립트에 대한 지침은 SQL Server 빅 데이터 클러스터의 오프라인 배포 수행에서 제공됩니다.

에어 갭 환경에 빅 데이터 클러스터를 배포할 수 있나요?

예, 자세한 내용은 SQL Server 빅 데이터 클러스터의 오프라인 배포 수행을 참조하세요.

기본적으로 ‘Azure Storage 암호화’ 기능이 AKS 기반 빅 데이터 클러스터 클러스터에도 적용되나요?

AKS(Azure Kubernetes Service)의 동적 스토리지 프로비저닝 프로그램 구성에 따라 달라집니다. 자세한 내용은 AKS(Azure Kubernetes Services)의 스토리지 및 백업 모범 사례를 참조하세요.

빅 데이터 클러스터에서 SQL Server 및 HDFS 암호화를 위해 키를 회전할 수 있나요?

예. 자세한 내용은 빅 데이터 클러스터의 키 버전을 참조하세요.

자동 생성된 Active Directory 개체의 암호를 회전할 수 있나요?

예, SQL Server 빅 데이터 클러스터 CU13에 도입된 새 기능을 사용하여 자동 생성된 Active Directory 개체의 암호를 쉽게 회전할 수 있습니다. 자세한 내용은 AD 암호 회전을 참조하세요.

지원

Microsoft에서 SQL Server 빅 데이터 클러스터 내에 배포된 Spark와 HDFS를 지원하나요?

예, Microsoft는 빅 데이터 클러스터 내에서 제공되는 모든 구성 요소를 지원합니다.

SparkML 및 SQL Server ML 서비스에 대한 지원 모델은 무엇인가요?

SQL Server ML 서비스 지원 정책은 모든 주 릴리스가 새 런타임 버전과 함께 제공된다는 점을 제외하고 SQL Server 지원 정책과 동일합니다. SparkML 라이브러리 자체는 OSS(오픈 소스 소프트웨어)입니다. 많은 OSS 구성 요소를 빅 데이터 클러스터에 패키지하며 Microsoft에서 지원합니다.

RHEL8(Red Hat Enterprise Linux 8)은 SQL Server 빅 데이터 클러스터에서 지원되는 플랫폼인가요?

지금은 없습니다. 여기에서 테스트된 구성을 참조하세요.

도구

Azure Data Studio에서 사용할 수 있는 Notebook은 기본적으로 Jupyter Notebook인가요?

예, Azure Data Studio에 표시된 것과 동일한 Jupyter 커널입니다.

`azdata` 도구는 오픈 소스인가요?

아니요, azdata는 현재 오픈 소스가 아닙니다.

교육 리소스

사용할 수 있는 빅 데이터 클러스터 학습 옵션은 무엇인가요?