Share via


더 나은 함께: 레이크 하우스와 창고

적용 대상: Microsoft Fabric의 SQL 분석 엔드포인트 및 웨어하우스

이 문서에서는 Lakehouse의 SQL 분석 엔드포인트사용하는 데이터 웨어하우징 워크로드 및 데이터 웨어하우징에서 Lakehouse를 사용하는 시나리오에 대해 설명합니다.

Lakehouse SQL 분석 엔드포인트란?

Fabric에서 레이크하우스를 만들면 웨어하우스자동으로 만들어집니다.

SQL 분석 엔드포인트를 사용하면 T-SQL 언어 및 TDS 프로토콜을 사용하여 Lakehouse에서 데이터를 쿼리할 수 있습니다. 모든 Lakehouse에는 하나의 SQL 분석 엔드포인트가 있으며 각 작업 영역에는 둘 이상의 Lakehouse가 있을 수 있습니다. 작업 영역의 SQL 분석 엔드포인트 수는 Lakehouse 항목 수와 일치합니다.

  • SQL 분석 엔드포인트는 모든 Lakehouse에 대해 자동으로 생성되며 T-SQL 언어를 사용하여 쿼리할 수 있는 SQL 테이블로 Lakehouse의 델타 테이블을 노출합니다.
  • Lakehouse의 모든 델타 테이블은 하나의 테이블로 표시됩니다. 데이터는 델타 형식이어야 합니다.
  • 기본 Power BI 의미 체계 모델은 모든 SQL 분석 엔드포인트에 대해 만들어지고 Lakehouse 개체의 명명 규칙을 따릅니다.

Microsoft Fabric에서 SQL 분석 엔드포인트를 만들 필요가 없습니다. Microsoft Fabric 사용자는 작업 영역에서 SQL 분석 엔드포인트를 만들 수 없습니다. SQL 분석 엔드포인트는 모든 Lakehouse에 대해 자동으로 만들어집니다. SQL 분석 엔드포인트 를 얻으려면 Lakehouse를 만들고 Lakehouse 에 대한 SQL 분석 엔드포인트가 자동으로 만들어집니다.

참고 항목

내부적으로 SQL 분석 엔드포인트는 웨어하우스와 동일한 엔진을 사용하여 대기 시간이 짧은 고성능 SQL 쿼리를 제공합니다.

자동 메타데이터 검색

원활한 프로세스는 델타 로그와 파일 폴더를 읽고 통계와 같은 테이블에 대한 SQL 메타데이터가 항상 최신 상태인지 확인합니다. 사용자 작업이 필요하지 않으며 데이터를 가져오거나 복사하거나 인프라를 설정할 필요가 없습니다. 자세한 내용은 SQL 분석 엔드포인트에서 자동으로 생성된 스키마를 참조 하세요.

Lakehouse에서 데이터 웨어하우징에 사용할 수 있는 시나리오

Fabric에서는 하나의 웨어하우스를 제공합니다.

웨어하우스에서 제공하는 SQL 분석 엔드포인트가 있는 Lakehouse는 일괄 처리, 스트리밍 또는 람다 아키텍처 패턴의 기존 의사 결정 트리를 간소화할 수 있습니다. 레이크하우스는 창고와 함께 많은 추가 분석 시나리오를 가능하게 합니다. 이 섹션에서는 최상의 품종 분석 전략을 위해 창고와 함께 Lakehouse를 사용하는 방법을 살펴봅니다.

패브릭 레이크하우스의 골드 레이어를 사용한 분석

레이크 데이터 조직에 대해 잘 알려진 전략 중 하나는 파일이 원시(브론즈), 통합(실버) 및 정제된(금) 계층으로 구성된 medallion 아키텍처 입니다. 파일이 Microsoft Fabric OneLake 외부에 저장된 경우에도 SQL 분석 엔드포인트를 사용하여 medallion 아키텍처의 골드 계층에서 Delta Lake 데이터를 분석할 수 있습니다.

OneLake 바로 가기를 사용하여 Synapse Spark 또는 Azure Databricks 엔진에서 관리하는 외부 Azure Data Lake Storage 계정에서 골드 폴더를 참조할 수 있습니다.

또한 웨어하우스를 주제 영역으로 추가하거나 맞춤형 분석 요구 사항이 있을 수 있는 특정 주제에 대한 기본 지향 솔루션으로 추가할 수 있습니다.

패브릭에 데이터를 유지하도록 선택하는 경우 API, 델타 형식 및 물론 T-SQL을 통해 항상 열려 있고 액세스할 수 있습니다.

Lakehouse의 델타 테이블 및 OneLake 데이터 허브의 다른 항목을 통해 서비스로 쿼리

분석가, 데이터 과학자 또는 데이터 엔지니어가 데이터 레이크 내에서 데이터를 쿼리해야 하는 사용 사례가 있습니다. Fabric에서 이 종단 간 환경은 완전히 SaaSified입니다.

OneLake 는 전체 조직에 대한 단일 통합 논리 데이터 레이크입니다. OneLake는 데이터용 OneDrive입니다. OneLake는 조직 부서를 따라 여러 작업 영역(예: 여러 작업 영역)을 포함할 수 있습니다. Fabric의 모든 항목은 OneLake를 통해 데이터에 액세스할 수 있도록 합니다.

Microsoft Fabric Lakehouse의 데이터는 다음 폴더 구조를 사용하여 OneLake에 물리적으로 저장됩니다.

  • 이 폴더에는 /Files 데이터 엔지니어가 분석하기 전에 처리해야 하는 원시 및 연결되지 않은(브론즈) 파일이 포함되어 있습니다. 파일은 CSV, Parquet, 다양한 유형의 이미지 등과 같은 다양한 형식일 수 있습니다.
  • 폴더에는 /Tables 비즈니스 분석을 위해 준비된 구체화되고 통합된(골드) 데이터가 포함되어 있습니다. 통합 데이터는 Delta Lake 형식입니다.

SQL 분석 엔드포인트는 OneLake 내의 폴더에서 /tables 데이터를 읽을 수 있습니다. 분석은 Lakehouse의 SQL 분석 엔드포인트를 쿼리하는 것만큼 간단합니다. 또한 웨어하우스와 함께 데이터베이스 간 쿼리와 읽기 전용 쿼리에서 Synapse Data Warehouse를 사용하여 OneLake 데이터 위에 추가 비즈니스 논리를 빌드하는 기능으로 원활하게 전환할 수 있습니다.

Spark를 사용하여 데이터 엔지니어 및 SQL을 사용하여 서비스

데이터 기반 기업은 백 엔드 및 분석 시스템을 고객 연결 애플리케이션과 거의 실시간으로 동기화해야 합니다. 트랜잭션의 영향은 엔드투엔드 프로세스, 관련 애플리케이션 및 OLTP(온라인 트랜잭션 처리) 시스템을 통해 정확하게 반영되어야 합니다.

패브릭에서 Spark 스트리밍 또는 데이터 엔지니어 사용하여 데이터를 큐레이팅할 수 있습니다. Lakehouse SQL 분석 엔드포인트를 사용하여 데이터 품질 및 기존 T-SQL 프로세스의 유효성을 검사할 수 있습니다. 이 작업은 medallion 아키텍처 또는 Lakehouse의 여러 계층 내에서 청동, 은, 금 또는 스테이징, 큐레이팅 및 구체화된 데이터를 제공하는 데 사용할 수 있습니다. Spark를 통해 만든 폴더와 테이블을 사용자 지정하여 데이터 엔지니어링 및 비즈니스 요구 사항을 충족할 수 있습니다. 준비가 되면 웨어하우스는 데이터를 복사하거나, 뷰를 사용하거나(CTAS), 저장 프로시저 및 기타 DML/DDL 명령을 사용하여 CREATE TABLE AS SELECT 데이터를 구체화하지 않고도 모든 다운스트림 비즈니스 인텔리전스 애플리케이션 및 기타 분석 사용 사례를 제공할 수 있습니다.

Open Lakehouse의 골드 레이어와 통합

SQL 분석 엔드포인트는 Fabric Lakehouse에서만 데이터 분석으로 범위가 지정되지 않습니다. SQL 분석 엔드포인트를 사용하면 Synapse Spark, Azure Databricks 또는 다른 레이크 중심 데이터 엔지니어링 엔진을 사용하여 레이크하우스의 레이크 데이터를 분석할 수 있습니다. 데이터는 Azure Data Lake Storage 또는 Amazon S3에 저장할 수 있습니다.

패브릭 레이크하우스와의 긴밀하고 양방향 통합은 개방형 API, 델타 형식 및 물론 T-SQL이 있는 모든 엔진을 통해 항상 액세스할 수 있습니다.

바로 가기를 사용하여 외부 데이터 레이크의 데이터 가상화

OneLake 바로 가기를 사용하여 Synapse Spark 또는 Azure Databricks 엔진에서 관리하는 외부 Azure Data Lake Storage 계정의 골드 폴더와 Amazon S3에 저장된 델타 테이블을 참조할 수 있습니다.

바로 가기를 사용하여 참조되는 모든 폴더는 SQL 분석 엔드포인트에서 분석할 수 있으며 참조된 데이터에 대한 SQL 테이블이 만들어집니다. SQL 테이블을 사용하여 외부 관리형 데이터 레이크에 데이터를 노출하고 데이터를 분석할 수 있습니다.

이 바로 가기는 추가 다운스트림 분석 요구 사항을 위해 웨어하우스에서 활용하거나 직접 쿼리할 수 있는 가상 웨어하우스 역할을 합니다.

다음 단계를 사용하여 외부 Data Lake Storage 계정의 데이터를 분석합니다.

  1. Azure Data Lake Storage 또는 Amazon S3 계정의 폴더를 참조하는 바로 가기를 만듭니다. 연결 세부 정보 및 자격 증명을 입력하면 Lakehouse에 바로 가기가 표시됩니다.
  2. Lakehouse의 SQL 분석 엔드포인트로 전환하고 바로 가기 이름과 일치하는 이름이 있는 SQL 테이블을 찾습니다. 이 SQL 테이블은 ADLS/S3 폴더의 폴더를 참조합니다.
  3. ADLS/S3에서 데이터를 참조하는 SQL 테이블을 쿼리합니다. 이 테이블은 SQL 분석 엔드포인트의 다른 테이블로 사용할 수 있습니다. 다른 스토리지 계정의 데이터를 참조하는 테이블을 조인할 수 있습니다.

참고 항목

SQL 테이블이 SQL 분석 엔드포인트에 즉시 표시되지 않는 경우 몇 분 정도 기다려야 할 수 있습니다. 외부 스토리지 계정의 데이터를 참조하는 SQL 테이블은 지연으로 만들어집니다.

데이터 레이크에서 보관된 데이터 또는 기록 데이터 분석

데이터 분할은 데이터 레이크에서 잘 알려진 데이터 액세스 최적화 기술입니다. 분할된 데이터 집합은 계층적 폴더 구조/year=<year>/month=<month>/day=<day>에 저장되며, 여기서 yearmonthday 는 분할 열입니다. 이렇게 하면 전체 디렉터리 및 포함된 모든 폴더 및 파일을 읽는 것과 달리 컴퓨팅 엔진이 성능 필터링을 통해 필요에 따라 데이터를 읽을 수 있는 형식으로 논리적으로 구분된 기록 데이터를 저장할 수 있습니다.

분할된 데이터를 사용하면 조건자 열을 값과 비교하는 조건자에서 쿼리를 필터링하는 경우 더 빠르게 액세스할 수 있습니다.

SQL 분석 엔드포인트는 구성 없이 이 유형의 데이터를 쉽게 읽을 수 있습니다. 예를 들어 SQL Server 2022 또는 Azure SQL Managed Instance를 포함하여 모든 애플리케이션을 사용하여 데이터를 데이터 레이크에 보관할 수 있습니다. 데이터를 분할하고 외부 테이블을 사용하여 보관 목적으로 레이크에 배치한 후 SQL 분석 엔드포인트는 분할된 Delta Lake 테이블을 SQL 테이블로 읽고 조직에서 분석할 수 있도록 할 수 있습니다. 이렇게 하면 총 소유 비용이 줄어들고, 데이터 중복이 감소하며, 빅 데이터, AI, 기타 분석 시나리오가 표시됩니다.

바로 가기를 사용하여 패브릭 데이터의 데이터 가상화

패브릭 내에서 작업 영역을 사용하면 복잡한 비즈니스, 지리적 또는 규제 요구 사항에 따라 데이터를 분리할 수 있습니다.

SQL 분석 엔드포인트를 사용하면 원활한 가상화를 통해 데이터를 그대로 두고 다른 Microsoft Fabric 작업 영역에서도 웨어하우스 또는 Lakehouse의 데이터를 분석할 수 있습니다. 모든 Microsoft Fabric Lakehouse는 OneLake에 데이터를 저장합니다.

바로 가기를 사용하면 OneLake 위치에서 폴더를 참조할 수 있습니다.

모든 Microsoft Fabric Warehouse는 OneLake에 테이블 데이터를 저장합니다. 테이블이 추가 전용인 경우 테이블 데이터는 OneLake에서 Delta Lake 데이터로 노출됩니다. 바로 가기를 사용하면 웨어하우스 테이블이 노출되는 OneLake의 폴더를 참조할 수 있습니다.

작업 영역 간 공유 및 쿼리

작업 영역을 사용하면 복잡한 비즈니스, 지리적 또는 규제 요구 사항에 따라 데이터를 분리할 수 있지만 특정 분석 요구 사항에 맞게 이러한 라인 간에 공유를 용이하게 해야 하는 경우도 있습니다.

Lakehouse SQL 분석 엔드포인트를 사용하면 사용자가 자신의 용량과 웨어하우스를 가져올 수 있는 부서와 사용자 간에 데이터를 쉽게 공유할 수 있습니다. 작업 영역은 부서, 사업부 또는 분석 작업을 구성합니다기본. 사용자는 바로 가기를 사용하여 모든 웨어하우스 또는 Lakehouse의 데이터를 찾을 수 있습니다. 사용자는 동일한 공유 데이터에서 사용자 지정 분석을 즉시 수행할 수 있습니다. 부서별 차지백 및 사용량 할당을 돕는 것 외에도 데이터 복사 0개 버전입니다.

SQL 분석 엔드포인트를 사용하면 모든 테이블을 쿼리하고 쉽게 공유할 수 있습니다. 추가 비즈니스 요구 사항을 충족하기 위해 계층화할 수 있는 작업 영역 역할 및 보안 역할의 추가 컨트롤입니다.

다음 단계를 사용하여 작업 영역 간 데이터 분석을 사용하도록 설정합니다.

  1. 액세스할 수 있는 작업 영역의 테이블 또는 폴더를 참조하는 OneLake 바로 가기를 만듭니다.
  2. 분석하려는 테이블 또는 Delta Lake 폴더가 포함된 Lakehouse 또는 Warehouse를 선택합니다. 테이블/폴더를 선택하면 Lakehouse에 바로 가기가 표시됩니다.
  3. Lakehouse의 SQL 분석 엔드포인트로 전환하고 바로 가기 이름과 일치하는 이름이 있는 SQL 테이블을 찾습니다. 이 SQL 테이블은 다른 작업 영역의 폴더를 참조합니다.
  4. 다른 작업 영역의 데이터를 참조하는 SQL 테이블을 쿼리합니다. 이 테이블은 SQL 분석 엔드포인트의 다른 테이블로 사용할 수 있습니다. 다른 작업 영역에서 데이터를 참조하는 테이블을 조인할 수 있습니다.

참고 항목

SQL 테이블이 SQL 분석 엔드포인트에 즉시 표시되지 않는 경우 몇 분 정도 기다려야 할 수 있습니다. 다른 작업 영역의 데이터를 참조하는 SQL 테이블이 지연되어 만들어집니다.

분할된 데이터 분석

데이터 분할은 데이터 레이크에서 잘 알려진 데이터 액세스 최적화 기술입니다. 분할된 데이터 집합은 계층적 폴더 구조/year=<year>/month=<month>/day=<day>에 저장되며, 여기서 yearmonthday 는 분할 열입니다. 분할된 데이터 집합은 조건자 열을 값과 비교하여 데이터를 필터링하는 조건자를 사용하여 쿼리가 데이터를 필터링하는 경우 더 빠른 데이터 액세스를 가능하게 합니다.

SQL 분석 엔드포인트는 분할된 Delta Lake 데이터 집합을 SQL 테이블로 나타내고 분석할 수 있습니다.