이 시나리오 예는 온-프레미스 데이터 웨어하우스에서 클라우드 환경으로 데이터를 수집한 다음 BI(비즈니스 인텔리전스) 모델을 사용하여 제공하는 방법을 보여 줍니다. 이 방식은 최종 목표이거나 클라우드 기반 구성 요소를 통한 완전한 현대화를 향한 첫 단계일 수 있습니다.
다음 단계는 Azure Synapse Analytics 엔드투엔드 시나리오를 기반으로 합니다. Azure Pipelines을 사용하여 SQL 데이터베이스에서 Azure Synapse SQL 풀로 데이터를 수집한 다음 분석을 위해 데이터를 변환합니다.
아키텍처
이 아키텍처의 Visio 파일을 다운로드합니다.
워크플로
데이터 원본
- 원본 데이터는 Azure의 SQL Server 데이터베이스에 있습니다. 온-프레미스 환경을 시뮬레이션하기 위해 이 시나리오의 배포 스크립트는 Azure SQL 데이터베이스를 프로비전합니다. AdventureWorks 샘플 데이터베이스는 원본 데이터 스키마 및 샘플 데이터로 사용됩니다. 온-프레미스 데이터베이스에서 데이터를 복사하는 방법에 대한 자세한 내용은 SQL Server에서 데이터 복사 및 변환을 참조하세요.
수집 및 데이터 스토리지
Azure Data Lake Gen2는 데이터 수집 중에 임시 준비 영역으로 사용됩니다. 그런 다음 PolyBase를 사용하여 데이터를 Azure Synapse 전용 SQL 풀로 복사할 수 있습니다.
Azure Synapse Analytics는 대규모 데이터 분석을 수행하도록 설계되고 배포된 시스템입니다. 고성능 분석을 실행하는 데 적합하도록 하는 MPP(대규모 병렬 처리)를 지원합니다. Azure Synapse 전용 SQL 풀은 온-프레미스에서 진행 중인 수집의 대상입니다. DirectQuery를 통해 Power BI용 데이터를 제공할 뿐만 아니라 추가 처리에 사용할 수 있습니다.
Azure Pipelines는 Azure Synapse 작업 영역 내에서 데이터 수집 및 변환을 조정하는 데 사용됩니다.
분석 및 보고
- 이 시나리오의 데이터 모델링 방식은 엔터프라이즈 모델과 BI 의미 체계 모델을 결합하여 제시됩니다. 엔터프라이즈 모델은 Azure Synapse 전용 SQL 풀에 저장되고 BI Semantic 모델은 Power BI Premium 용량에 저장됩니다. Power BI는 DirectQuery를 통해 데이터에 액세스합니다.
구성 요소
이 시나리오에서는 다음 구성 요소를 사용합니다.
단순화된 아키텍처
시나리오 정보
조직에는 SQL 데이터베이스에 저장된 대규모 온-프레미스 데이터 웨어하우스가 있습니다. 조직은 Azure Synapse를 사용하여 분석을 수행한 다음 Power BI를 사용하여 이러한 인사이트를 제공하려고 합니다.
인증
Microsoft Entra는 Power BI 대시보드 및 앱에 연결하는 사용자를 인증합니다. Single Sign-On은 Azure Synapse 프로비전 풀의 데이터 원본에 연결하는 데 사용됩니다. 권한 부여는 원본에서 발생합니다.
증분 로드
자동화된 ETL(추출-변환-로드) 또는 ELT(추출-로드-변환) 프로세스를 실행할 때 이전 실행 이후 변경된 데이터만 로드하는 것이 가장 효율적입니다. 이는 모든 데이터를 로드하는 전체 로드와 달리 증분 로드라고 합니다. 증분 로드를 수행하려면 데이터가 변경되었음을 식별하는 방법이 필요합니다. 가장 일반적인 방법은 상위 워터 마크 값을 사용하는 것입니다. 이 값은 날짜/시간 열 또는 고유한 정수 열과 같은 원본 테이블의 일부 열에 대한 최신 값을 추적합니다.
SQL Server 2016부터 전체 데이터 변경 기록을 보관하는 시스템 버전 테이블인 임시 테이블을 사용할 수 있습니다. 데이터베이스 엔진은 별도 기록 테이블의 모든 변경 기록을 자동으로 레코드합니다. 쿼리에 FOR SYSTEM_TIME
절을 추가하여 기록 데이터를 쿼리할 수 있습니다. 내부적으로 데이터베이스 엔진은 기록 테이블을 쿼리하지만 애플리케이션에 투명합니다.
참고
이전 버전의 SQL Server의 경우 변경 데이터 캡처(CDC)를 사용할 수 있습니다. 이 방법은 별도 변경 테이블을 쿼리해야 하고 변경 내용이 타임스탬프보다는 로그 시퀀스 번호로 추적되기 때문에 임시 테이블보다 더 불편합니다.
임시 테이블은 시간이 지남에 따라 변경될 수 있는 차원 데이터에 유용합니다. 팩트 테이블은 대개 시스템 버전 기록을 유지하는 것이 사리에 맞지 않은 경우에 판매 같은 변경이 불가능한 트랜잭션을 나타냅니다. 대신 트랜잭션에는 대개 워터 마크 값으로 사용될 수 있는 트랜잭션 날짜를 나타내는 열이 있습니다. 예를 들어, AdventureWorks 데이터 웨어하우스에서 SalesLT.*
테이블에는 LastModified
필드가 있습니다.
ELT 파이프라인의 일반적인 흐름은 다음과 같습니다.
원본 데이터베이스의 각 테이블의 경우 마지막 ELT 작업이 실행될 때 마감 시간을 추적하여, 데이터 웨어하우스에 이 정보를 저장합니다. (초기 설치 시 항상 시간은
1-1-1900
로 설정돼 있습니다.)데이터 내보내기 단계 중 마감 시간은 원본 데이터베이스의 저장 프로시저 집합에 매개 변수로 전달됩니다. 이러한 저장 프로시저는 마감 시간 이후에 변경되거나 만들어진 모든 레코드를 쿼리합니다. 예의 모든 테이블에 대해
ModifiedDate
열을 사용할 수 있습니다.데이터 마이그레이션이 완료되면 마감 시간을 저장하는 테이블을 업데이트합니다.
데이터 파이프라인
이 시나리오에서는 AdventureWorks 샘플 데이터베이스를 데이터 원본으로 사용합니다. 증분 데이터 부하 패턴은 가장 최근의 파이프라인 실행 후에 수정되거나 추가된 데이터만 로드하도록 구현됩니다.
메타데이터 기반 복사 도구
Azure Pipelines에 기본 제공된 메타데이터 기반 복사 도구는 관계형 데이터베이스에 포함된 모든 테이블을 점진적으로 로드합니다. 마법사 기반 환경을 탐색하여 데이터 복사 도구를 원본 데이터베이스에 연결하고 각 테이블에 대해 증분 또는 전체 로드를 구성할 수 있습니다. 그런 다음 데이터 복사 도구는 파이프라인과 SQL 스크립트를 모두 만들어 증분 로드 프로세스를 위한 데이터(예: 각 테이블의 상위 워터마크 값/열)를 저장하는 데 필요한 제어 테이블을 만듭니다. 이러한 스크립트가 실행되면 파이프라인은 원본 데이터 웨어하우스의 모든 테이블을 Synapse 전용 풀로 로드할 준비가 됩니다.
이 도구는 데이터를 로드하기 전에 데이터베이스의 모든 테이블을 반복하는 세 개의 파이프라인을 만듭니다.
이 도구로 생성된 파이프라인:
- 파이프라인 실행에서 복사할 개체(예: 테이블) 수를 계산합니다.
- 로드/복사할 각 개체를 반복한 후 다음을 수행합니다.
- 델타 로드가 필요한지 확인합니다. 그렇지 않으면 일반 전체 로드를 완료합니다.
- 제어 테이블에서 상위 워터마크 값을 검색합니다.
- 원본 테이블의 데이터를 Data Lake Storage Gen2의 스테이징 계정으로 복사합니다.
- 선택한 복사 방법(예: PolyBase, 복사 명령)을 통해 전용 SQL 풀에 데이터를 로드합니다.
- 제어 테이블에서 상위 워터마크 값을 업데이트합니다.
Azure Synapse SQL 풀에 데이터 로드
복사 작업은 SQL 데이터베이스에서 Azure Synapse SQL 풀로 데이터를 복사합니다. 이 예에서는 SQL 데이터베이스가 Azure에 있기 때문에 Azure 통합 런타임을 사용하여 SQL 데이터베이스에서 데이터를 읽고 지정된 스테이징 환경에 데이터를 씁니다.
그런 다음 복사 문을 사용하여 스테이징 환경에서 Synapse 전용 풀로 데이터를 로드합니다.
Azure Pipelines 사용
Azure Synapse의 파이프라인은 증분 부하 패턴을 완료하기 위해 정렬된 작업 집합을 정의하는 데 사용됩니다. 트리거는 수동으로 또는 지정된 시간에 트리거될 수 있는 파이프라인을 시작하는 데 사용됩니다.
데이터 변환
참조 아키텍처의 샘플 데이터베이스가 크지 않기 때문에 파티션 없이 복제된 테이블을 만들었습니다. 프로덕션 작업의 경우 분산 테이블을 사용하면 쿼리 성능을 개선할 수 있습니다. 자세한 내용은 Azure Synapse의 분산 테이블 디자인에 대한 참고 자료를 참조하세요. 스크립트 예는 정적 리소스 클래스를 사용하여 쿼리를 실행합니다.
프로덕션 환경에서는 라운드 로빈 배포로 준비 테이블을 만드는 것이 좋습니다. 그런 다음 전체 쿼리 성능이 가장 좋은 클러스터형 columnstore 인덱스가 있는 프로덕션 테이블로 데이터를 변환하고 이동합니다. Columnstore 인덱스는 많은 레코드를 검색하는 쿼리에 최적화됩니다. Columnstore 인덱스는 싱글톤 조회(즉, 단일 행 조회)도 수행하지 않습니다. 자주 싱글톤 조회를 수행해야 하는 경우 테이블에 비클러스터형 인덱스를 추가할 수 있습니다. 싱글톤 조회는 비클러스터형 인덱스를 사용하여 훨씬 빠르게 실행할 수 있습니다. 그러나 싱글톤 조회는 일반적으로 OLTP 작업보다 데이터 웨어하우스 시나리오에서 덜 일반적입니다. 자세한 내용은 Azure Synapse의 테이블 인덱싱을 참조하세요.
참고
클러스터형 columnstore 테이블은 varchar(max)
, nvarchar(max)
또는 varbinary(max)
데이터 형식을 지원하지 않습니다. 이 경우 힙 또는 클러스터형 인덱스를 고려합니다. 별도 테이블에 해당 열을 넣을 수 있습니다.
Power BI Premium을 사용하여 데이터 액세스, 모델링 및 시각화
Power BI Premium은 Azure의 데이터 원본, 특히 Azure Synapse 프로비전된 풀에 연결하기 위한 몇 가지 옵션을 지원합니다.
- 가져오기: 데이터를 Power BI 모델로 가져옵니다.
- DirectQuery: 관계형 스토리지에서 직접 데이터를 가져옵니다.
- 복합 모델: 일부 테이블에는 Import를 결합하고 다른 테이블에는 DirectQuery를 결합합니다.
이 시나리오는 사용되는 데이터의 양과 모델 복잡성이 높지 않아 좋은 사용자 환경을 제공할 수 있기 때문에 DirectQuery 대시보드와 함께 제공됩니다. DirectQuery는 쿼리를 아래의 강력한 컴퓨팅 엔진에 위임하고 원본에서 광범위한 보안 기능을 활용합니다. 또한 DirectQuery를 사용하면 결과는 항상 최신 원본 데이터와 일치하게 됩니다.
Import 모드는 가장 빠른 쿼리 응답 시간을 제공하며, 모델이 Power BI의 메모리에 완전히 맞고 새로 고침 사이의 데이터 대기 시간이 허용될 수 있으며 원본 시스템과 최종 모델 간에 일부 복잡한 변환이 있을 수 있는 경우 이 모드를 고려해야 합니다. 이 경우 최종 사용자는 Power BI 새로 고침 지연 없이 최신 데이터에 대한 모든 액세스 권한과 Power BI 데이터 세트가 처리할 수 있는 것보다 큰 모든 기록 데이터(용량 크기에 따라 25~400GB)에 대한 모든 권한을 원합니다. 전용 SQL 풀의 데이터 모델은 이미 별모양 스키마에 있고 변환이 필요하지 않으므로 DirectQuery가 적절한 선택입니다.
Power BI Premium Gen2는 대규모 모델, 페이지를 매긴 보고서, 배포 파이프라인 및 기본 제공된 Analysis Services 엔드포인트를 처리할 수 있는 기능을 제공합니다. 고유한 가치 제안을 가진 전용 용량을 보유할 수도 있습니다.
BI 모델이 커지거나 대시보드 복잡성이 증가하면 복합 모델로 전환하고 하이브리드 테이블 및 일부 사전 집계 데이터를 통해 조회 테이블의 일부 가져오기를 시작할 수 있습니다. 가져온 데이터 세트에 대해 Power BI 내에서 쿼리 캐싱을 사용하도록 설정하는 것은 옵션이며 스토리지 모드 속성에 대해 이중 테이블을 활용합니다.
복합 모델 내에서 데이터 세트는 가상 통과 계층 역할을 합니다. 사용자가 시각화와 상호 작용할 때 Power BI는 Synapse SQL 풀 이중 스토리지에 대한 SQL 쿼리를 생성합니다. 어느 것이 더 효율적인지에 따라 인메모리 또는 직접 쿼리입니다. 엔진은 메모리 내에서 직접 쿼리로 전환할 시기를 결정하고 논리를 Synapse SQL 풀로 푸시합니다. 쿼리 테이블의 컨텍스트에 따라 캐시된(가져온) 복합 모델 또는 캐시되지 않은 복합 모델로 작동할 수 있습니다. 메모리에 캐싱할 테이블을 선택하고 하나 이상의 DirectQuery 원본에서 데이터를 결합하거나 DirectQuery 원본과 가져온 데이터 혼합에서 데이터를 결합합니다.
권장 사항: Azure Synapse Analytics 프로비전된 풀을 통해 DirectQuery를 사용하는 경우:
- Azure Synapse 결과 집합 캐싱을 사용하여 반복 사용을 위해 쿼리 결과를 사용자 데이터베이스에 캐시하고, 쿼리 성능을 밀리초 단위로 개선하고, 컴퓨팅 리소스 사용량을 줄입니다. 캐시된 결과 집합을 사용하는 쿼리는 Azure Synapse Analytics의 동시성 슬롯을 사용하지 않으므로 기존 동시성 제한에 포함되지 않습니다.
- Azure Synapse 구체화된 뷰를 사용하여 테이블처럼 데이터를 사전 컴퓨팅, 저장 및 유지 관리합니다. 구체화된 뷰에서 데이터의 전체 또는 하위 집합을 사용하는 쿼리는 더 빠른 성능을 가져올 수 있으며 정의된 구체화된 뷰를 사용하기 위해 직접 참조할 필요가 없습니다.
고려 사항
이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.
보안
우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.
클라우드 현대화를 모색하고 있는 기업에는 데이터 위반, 맬웨어 감염 및 악성 코드 삽입에 대한 잦은 헤드라인이 광범위한 보안 문제 목록 중 하나입니다. 기업 고객은 여유가 없으므로 문제를 해결할 수 있는 클라우드 공급자 또는 서비스 솔루션이 필요합니다.
이 시나리오는 계층화된 보안 제어(네트워크, ID, 개인 정보 보호 및 권한 부여)의 조합을 사용하여 가장 까다로운 보안 문제를 해결합니다. 대량의 데이터는 Single Sign-On을 통해 DirectQuery를 사용하는 Power BI와 함께 Azure Synapse 프로비전된 풀에 저장됩니다. 인증을 위해 Microsoft Entra ID를 사용할 수 있습니다. 프로비전된 풀의 데이터 권한 부여를 위한 광범위한 보안 제어도 있습니다.
몇 가지 일반적인 보안 질문은 다음과 같습니다.
- 누가 어떤 데이터를 볼 수 있는지 제어하려면 어떻게 해야 하나요?
- 조직은 데이터 침해 위험을 완화하기 위해 연방, 지역 및 회사 지침을 준수하도록 데이터를 보호해야 합니다. Azure Synapse는 규정 준수를 위해 여러 데이터 보호 기능을 제공합니다.
- 사용자의 ID를 확인하기 위한 옵션은 무엇인가요?
- 네트워크와 데이터의 무결성, 기밀성 및 액세스를 보호하는 데 사용할 수 있는 네트워크 보안 기술은 무엇인가요?
- Azure Synapse를 보호하기 위해 고려할 수 있는 다양한 네트워크 보안 옵션이 있습니다.
- 위협을 검색하고 알려주는 도구는 무엇인가요?
- Azure Synapse는 데이터베이스를 감사, 보호 및 모니터링하기 위한 SQL 감사, SQL 위협 감지 및 취약성 평가와 같은 많은 위협 감지 기능을 제공합니다.
- 스토리지 계정의 데이터를 보호하려면 어떻게 해야 하나요?
- Azure Storage 계정은 빠르고 일관된 응답 시간을 요구하거나 초당 IOP(입출력 작업 수)가 많은 워크로드에 이상적입니다. 스토리지 계정에는 모든 Azure Storage 데이터 개체가 포함되며 스토리지 계정 보안을 위한 다양한 옵션이 있습니다.
비용 최적화
비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.
이 섹션에서는 이 솔루션과 관련된 다양한 서비스의 가격 책정에 대한 정보를 제공하고 샘플 데이터 세트를 사용하여 이 시나리오에 대해 내린 결정을 언급합니다.
Azure Synapse
Azure Synapse Analytics 서버리스 아키텍처를 사용하면 독립적으로 컴퓨팅 및 스토리지 수준의 크기를 조정할 수 있습니다. 컴퓨팅 리소스는 사용량에 따라 요금이 청구되며, 수요에 따라 이러한 리소스를 조정하거나 일시 중지할 수 있습니다. 스토리지 리소스는 테라바이트 단위로 요금이 청구되므로 수집하는 데이터의 양이 많을수록 비용이 증가합니다.
Azure Pipelines
Azure Synapse의 파이프라인 가격 책정 세부 정보는 Azure Synapse 가격 책정 페이지의 데이터 통합 탭에서 확인할 수 있습니다. 파이프라인 가격에 영향을 미치는 세 가지 주요 구성 요소는 다음과 같습니다.
- 데이터 파이프라인 작업 및 통합 런타임 시간
- 데이터 흐름 클러스터 크기 및 실행
- 운영 요금
가격은 구성 요소 또는 작업, 빈도 및 통합 런타임 단위 수에 따라 다릅니다.
샘플 데이터 세트의 경우 표준 Azure 호스트된 통합 런타임인 파이프라인 핵심에 대한 데이터 복사 작업이 원본 데이터베이스의 모든 항목(테이블)에 대해 매일 일정에 따라 트리거됩니다. 시나리오에는 데이터 흐름이 포함되어 있지 않습니다. 한 달에 파이프라인 작업이 100만 개 미만이므로 운영 비용이 없습니다.
Azure Synapse 전용 풀 및 스토리지
Azure Synapse 전용 풀의 가격 책정 세부 정보는 Azure Synapse 가격 책정 페이지의 데이터 웨어하우징 탭에서 확인할 수 있습니다. 전용 사용량 모델에서는 가동 시간당 프로비전된 데이터 웨어하우스 단위(DWU)별로 고객에게 비용이 청구됩니다. 또 다른 기여 요소는 데이터 스토리지 비용입니다. 미사용 데이터 크기 + 스냅샷 + 지리적 중복성입니다(있는 경우).
샘플 데이터 세트의 경우 500DWU를 프로비전할 수 있으며 이는 분석 로드에 대한 좋은 환경을 보장합니다. 업무 보고 시간 동안 컴퓨팅을 계속 가동하고 실행할 수 있습니다. 프로덕션에 투입되는 경우 예약된 데이터 웨어하우스 용량은 Cost Management를 위한 매력적인 옵션입니다. 이전 섹션에서 다룬 비용/성능 메트릭을 최대화하려면 다양한 기술을 사용해야 합니다.
Blob Storage
스토리지 비용을 낮추려면 Azure Storage 예약 용량 기능을 사용하는 것이 좋습니다. 이 모델에서는 고정 스토리지 용량을 1년 또는 3년 동안 예약하면 할인을 가져옵니다. 자세한 내용은 예약된 용량을 통한 Blob 스토리지에 대한 비용 최적화를 참조하세요.
이 시나리오에는 영구 스토리지가 없습니다.
Power BI Premium
Power BI Premium 가격 책정 세부 정보는 Power BI 가격 책정 페이지에서 확인할 수 있습니다.
이 시나리오에서는 까다로운 분석 요구 사항을 수용하기 위해 다양한 성능 향상 기능이 기본 제공된 Power BI Premium 작업 영역을 사용합니다.
운영 우수성
운영 우수성은 애플리케이션을 배포하고 프로덕션에서 계속 실행하는 운영 프로세스를 다룹니다. 자세한 내용은 운영 우수성 핵심 요소 개요를 참조하세요.
DevOps 권장 사항
프로덕션, 개발 및 테스트 환경에 대해 별도의 리소스 그룹을 만듭니다. 별도의 리소스 그룹을 만들면 배포 관리, 테스트 배포 삭제, 액세스 권한 할당 등이 더 간단해집니다.
각 워크로드를 별도의 배포 템플릿에 배치하고 리소스를 소스 제어 시스템에 저장합니다. 연속 통합 및 지속적인 배포(CI/CD) 프로세스의 일부로 템플릿을 함께 또는 개별적으로 배포하여 자동화 프로세스를 더 쉽게 만들 수 있습니다. 이 아키텍처에는 네 가지 주요 워크로드가 있습니다.
- 데이터 웨어하우스 서버 및 관련 리소스
- Azure Synapse 파이프라인
- Power BI 자산: 대시보드, 앱, 데이터 세트
- 온-프레미스에서 클라우드로 시뮬레이션된 시나리오
워크로드마다 별도의 배포 템플릿을 사용하는 것을 목표로 합니다.
가능한 경우 워크로드를 준비하는 것이 좋습니다. 다음 단계로 이동하기 전에 다양한 단계에 배포하고 각 단계에서 유효성 검사를 실행합니다. 이렇게 하면 통제된 방식으로 프로덕션 환경에 업데이트를 푸시하고 예상치 못한 배포 문제를 최소화할 수 있습니다. 라이브 프로덕션 환경을 업데이트하기 위해 파란색-녹색 배포 및 카나리아 릴리즈 전략을 사용합니다.
실패한 배포를 처리하기 위한 좋은 롤백 전략이 생깁니다. 예를 들어 배포 기록에서 이전에 성공한 배포를 자동으로 다시 배포할 수 있습니다. Azure CLI에서
--rollback-on-error
플래그를 참조하세요.Azure Monitor는 통합 모니터링 환경을 위해 데이터 웨어하우스 및 전체 Azure 분석 플랫폼의 성능을 분석하는 데 권장되는 옵션입니다. Azure Synapse Analytics는 Azure Portal 내에 모니터링 환경을 제공하여 데이터 웨어하우스 워크로드와 관련된 인사이트를 제공합니다. Azure Portal은 구성 가능한 보존 기간, 경고, 권장 사항, 메트릭과 로그용 사용자 지정 가능한 차트 및 대시보드를 제공하므로 데이터 웨어하우스를 모니터링할 때 권장되는 도구입니다.
빠른 시작
- 포털: Azure Synapse 개념 증명(POC)
- Azure CLI: Azure CLI를 사용하여 Azure Synapse 작업 영역 만들기
- Terraform: Terraform 및 Microsoft Azure를 사용한 최신 데이터 웨어하우징
성능 효율성
성능 효율성은 사용자가 배치된 요구 사항을 효율적인 방식으로 충족하기 위해 워크로드의 크기를 조정할 수 있는 기능입니다. 자세한 내용은 성능 효율성 핵심 요소 개요를 참조하세요.
이 섹션에서는 이 데이터 세트를 수용하기 위한 크기 결정에 대한 세부 정보를 제공합니다.
Azure Synapse 프로비전된 풀
선택할 수 있는 다양한 데이터 웨어하우스 구성이 있습니다.
DWU(데이터 웨어하우스 단위) | 컴퓨팅 노드 수 | 노드당 배포 수 |
---|---|---|
DW100c | 1 | 60 |
-- TO -- |
||
DW30000c | 60 | 1 |
특히 더 큰 데이터 웨어하우스 단위의 경우 확장의 성능 이점을 확인하려면 최소 1TB 데이터 세트를 사용합니다. 전용 SQL 풀에 대한 최적의 데이터 웨어하우스 단위 수를 찾으려면 스케일 업 및 다운을 시도하세요. 데이터를 로드한 후 서로 다른 데이터 웨어하우스 단위 수를 사용하여 몇 가지 쿼리를 실행합니다. 크기 조정이 빠르기 때문에 1시간 이내에 다양한 성능 수준을 시험해 볼 수 있습니다.
최적의 데이터 웨어하우스 단위 수 찾기
개발 중인 전용 SQL 풀의 경우 더 적은 수의 데이터 웨어하우스 단위를 선택하여 시작합니다. 적합한 시작점은 DW400c나 DW200c입니다. 애플리케이션 성능을 모니터링하여 선택한 데이터 웨어하우스 단위 수와 관찰한 성능을 비교합니다. 선형 크기 조정을 가정하고 데이터 웨어하우스 단위를 늘리거나 줄이는 데 필요한 크기를 결정합니다. 비즈니스 요구 사항에 맞는 최적 성능 수준에 도달할 때까지 계속 조정합니다.
Synapse SQL 풀 크기 조정
- Azure Portal을 사용하여 Synapse SQL 풀에 대한 컴퓨팅 크기 조정
- Azure PowerShell을 사용하여 전용 SQL 풀의 컴퓨팅 크기 조정
- T-SQL을 사용하여 Azure Synapse Analytics의 전용 SQL 풀에 대한 컴퓨팅 크기 조정
- 일시 중지, 모니터링 및 자동화
Azure Pipelines
Azure Synapse 파이프라인의 확장성 및 성능 최적화 기능과 사용된 복사 작업에 대해서는 복사 작업 성능 및 확장성 가이드를 참조하세요.
Power BI Premium
이 문서에서는 Power BI Premium Gen 2를 사용하여 BI 기능을 시연합니다. Power BI Premium의 용량 SKU 범위는 현재 P1(v-코어 8개)에서 P5(v-코어 128개)입니다. 필요한 용량을 선택하는 가장 좋은 방법은 용량 부하 평가를 받고 지속적인 모니터링을 위해 2세대 메트릭 앱을 설치하는 것입니다. Power BI Premium으로 자동 크기 조정을 사용해 보세요.
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
주요 작성자:
- Galina Polyakova | 선임 클라우드 솔루션 설계자
- Noah Costar | 클라우드 솔루션 설계자
- George Stevens | 클라우드 솔루션 설계자
기타 기여자:
- Jim McLeod | 클라우드 솔루션 설계자
- Miguel Myers | 선임 프로그램 관리자
비공용 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.
다음 단계
- Power BI 프리미엄이란?
- Microsoft Entra ID란?
- Azure Databricks를 사용하여 Azure Data Lake Storage Gen2 및 Blob Storage에 액세스
- Azure Synapse Analytics란?
- Azure Data Factory 및 Azure Synapse Analytics의 파이프라인 및 작업
- Azure SQL란?