SQL Server 빅 데이터 클러스터 소개
적용 대상: SQL Server 2019(15.x)
중요
Microsoft SQL Server 2019 빅 데이터 클러스터 추가 기능이 사용 중지됩니다. SQL Server 2019 빅 데이터 클러스터에 대한 지원은 2025년 2월 28일에 종료됩니다. 자세한 내용은 Microsoft SQL Server 플랫폼의 빅 데이터 옵션을 참조하세요.
SQL Server 2019(15.x)에서 SQL Server 빅 데이터 클러스터에서는 Kubernetes에서 실행되는 SQL Server, Spark 및 HDFS 컨테이너의 스케일링 가능한 클러스터를 배포할 수 있습니다. 이러한 구성 요소는 동시에 실행되므로 Transact-SQL 또는 Spark에서 빅 데이터 읽기, 쓰기 및 처리할 수 있으며, 대용량의 빅 데이터를 사용하여 가치 높은 관계형 데이터를 쉽게 조합하고 분석할 수 있습니다.
시작
- 먼저, SQL Server 빅 데이터 클러스터 시작을 참조하세요.
- 최신 릴리스의 새로운 기능은 릴리스 정보를 참조하세요.
- 자주 묻는 질문은 빅 데이터 클러스터 FAQ를 참조하세요.
빅 데이터 클러스터 아키텍처
다음 다이어그램에서는 SQL Server 빅 데이터 클러스터 구성 요소를 보여 줍니다.
컨트롤러
컨트롤러는 클러스터에 대한 관리 및 보안을 제공합니다. 여기에는 컨트롤 서비스, 구성 저장소 및 기타 클러스터 수준 서비스(예: Kibana, Grafana, 탄력적 검색)가 포함됩니다.
풀 컴퓨팅
컴퓨팅 풀은 클러스터에 컴퓨팅 리소스를 제공합니다. 여기에는 SQL Server on Linux pod를 실행하는 노드가 포함됩니다. 컴퓨팅 풀의 pod는 특정 처리 작업을 위한 SQL 컴퓨팅 인스턴스로 나뉩니다.
데이터 풀
데이터 풀은 데이터 지속성에 사용됩니다. 데이터 풀은 Linux에서 SQL Server를 실행하는 하나 이상의 pod로 구성됩니다. SQL 쿼리 또는 Spark 작업에서 데이터를 수집하는 데 사용됩니다.
스토리지 풀
스토리지 풀은 Linux의 SQL Server, Spark 및 HDFS로 이루어진 스토리지 풀 pod로 구성됩니다. SQL Server 빅 데이터 클러스터의 모든 스토리지 노드는 HDFS 클러스터의 멤버입니다.
팁
빅 데이터 클러스터 아키텍처 및 설치를 자세히 알아보려면 워크숍: Microsoft SQL Server 빅 데이터 클러스터 아키텍처를 참조하세요.
앱 풀
애플리케이션 배포는 애플리케이션을 만들고 관리 및 실행하기 위한 인터페이스를 제공하여 SQL Server 빅 데이터 클러스터에 애플리케이션을 배포할 수 있게 합니다.
시나리오 및 기능
SQL Server 빅 데이터 클러스터는 빅 데이터와 상호 작용하는 유연한 방법을 제공합니다. 외부 데이터 원본을 쿼리하거나, SQL Server에서 관리하는 HDFS에 빅 데이터를 저장하거나, 클러스터를 통해 여러 외부 데이터 원본에서 데이터를 쿼리할 수 있습니다. 그런 후 AI, Machine Learning 및 기타 분석 작업에 데이터를 사용할 수 있습니다.
SQL Server 빅 데이터 클러스터는 다음과 같은 용도로 사용할 수 있습니다.
- Kubernetes에서 실행되는 SQL Server, Spark 및 HDFS 컨테이너의 확장성 있는 클러스터 배포
- Transact-SQL 또는 Spark에서 빅 데이터 읽기, 쓰기 및 처리
- 대용량 빅 데이터를 사용하여 가치 높은 관계형 데이터를 쉽게 조합 및 분석
- 외부 데이터 원본 쿼리
- SQL Server에서 관리하는 HDFS에 빅 데이터 저장
- 클러스터를 통해 여러 외부 데이터 원본에서 데이터 쿼리
- AI, 기계 학습 및 기타 분석 작업에 데이터 사용
- 빅 데이터 클러스터에서 애플리케이션 배포 및 실행
- PolyBase를 사용하여 데이터 가상화 외부 테이블을 사용하여 외부 SQL Server, Oracle, Teradata, MongoDB 및 일반 ODBC 데이터 원본의 데이터 쿼리
- Always On 가용성 그룹 기술을 사용하여 SQL Server 마스터 인스턴스 및 모든 데이터베이스에 관해 고가용성 제공
다음 섹션에서는 이러한 시나리오에 대해 자세히 설명합니다.
데이터 가상화
PolyBase를 활용하므로 SQL Server 빅 데이터 클러스터는 데이터를 이동하거나 복사하지 않고도 외부 데이터 원본을 쿼리할 수 있습니다. SQL Server 2019(15.x)에는 데이터 원본에 대한 새로운 커넥터가 추가되었습니다. 자세한 내용은 PolyBase 2019의 새로운 기능을 참조하세요.
Data Lake
SQL Server 빅 데이터 클러스터에는 확장 가능한 HDFS 스토리지 풀이 포함되어 있습니다. 이를 사용하여 여러 외부 원본에서 수집될 수 있는 빅 데이터를 저장할 수 있습니다. 빅 데이터를 빅 데이터 클러스터의 HDFS에 저장한 후에는 데이터를 분석 및 쿼리하고 관계형 데이터와 결합할 수 있습니다.
통합 AI 및 Machine Learning
SQL Server 빅 데이터 클러스터는 HDFS 스토리지 풀 및 데이터 풀에 저장된 데이터에 대해 AI 및 Machine Learning 작업을 지원합니다. R, Python, Scala 또는 Java를 사용하여 SQL Server의 기본 제공 AI 도구뿐만 아니라 Spark도 사용할 수 있습니다.
관리 및 모니터링
관리 및 모니터링은 명령줄 도구, API, 포털 및 동적 관리 뷰를 조합하여 제공됩니다.
Azure Data Studio를 사용하여 빅 데이터 클러스터에서 다양한 작업을 수행할 수 있습니다.
- 일반적인 관리 작업을 위한 기본 제공 코드 조각
- HDFS를 찾아보고, 파일을 업로드하고, 파일을 미리 보고, 디렉터리를 만드는 기능
- Jupyter 호환 Notebook을 만들고 열고 실행하는 기능
- 외부 데이터 원본 만들기를 간소화하기 위한 데이터 가상화 마법사(데이터 가상화 확장에 의해 사용하도록 설정됨).
Kubernetes 개념
SQL Server 빅 데이터 클러스터는 Kubernetes에서 오케스트레이션되는 Linux 컨테이너의 클러스터입니다.
Kubernetes는 컨테이너 배포를 필요에 따라 확장할 수 있는 오픈 소스 컨테이너 오케스트레이터입니다. 다음 표에서는 몇 가지 중요한 Kubernetes 용어를 정의합니다.
용어 | 설명 |
---|---|
Cluster | Kubernetes 클러스터는 노드라는 컴퓨터 세트입니다. 한 노드는 클러스터를 제어하고 마스터 노드로 지정됩니다. 나머지 노드는 작업자 노드입니다. Kubernetes 마스터는 작업자 간에 작업을 배포하고 클러스터의 상태를 모니터링하는 일을 담당합니다. |
Node | 노드는 컨테이너화된 애플리케이션을 실행합니다. 물리적 컴퓨터 또는 가상 머신일 수 있습니다. Kubernetes 클러스터는 물리적 컴퓨터 및 가상 머신 노드를 혼합해서 포함할 수 있습니다. |
Pod | Pod는 Kubernetes의 원자성 배포 단위입니다. Pod는 애플리케이션을 실행하는 데 필요한 하나 이상의 컨테이너 및 연결된 리소스의 논리적 그룹입니다. 각 pod는 하나의 노드에서 실행되고 하나의 노드는 하나 이상의 pod를 실행할 수 있습니다. Kubernetes 마스터는 클러스터의 노드에 pod을 자동으로 할당합니다. |
SQL Server 빅 데이터 클러스터에서 Kubernetes는 클러스터의 상태를 처리합니다. Kubernetes는 클러스터 노드를 빌드 및 구성하고, Pod를 노드에 할당하고, 클러스터의 상태를 모니터링합니다.
다음 단계
SQL Server 빅 데이터 클러스터 배포에 대한 자세한 내용은 SQL Server 빅 데이터 클러스터 시작을 참조하세요.
그런 다음 데이터 로드 및 Spark 작업 실행을 시작합니다.
자세히 알아보기
- 빅 데이터 클러스터 아키텍처 워크샵
- 시청: Nutshell의 빅 데이터 클러스터
- 시청: SQL Server 2019의 빅 데이터 클러스터 소개 | 가상화, Kubernetes, 컨테이너
관련 기술에 대한 모듈을 알아봅니다.