다음을 통해 공유


Lakehouse 자습서: Lakehouse 만들기, 샘플 데이터 수집 및 보고서 작성

이 자습서에서는 Lakehouse를 빌드하고, 샘플 데이터를 Delta 테이블에 수집하고, 필요한 경우 변환을 적용한 다음, 보고서를 만듭니다.

팁 (조언)

이 자습서는 시리즈의 일부입니다. 이 자습서를 완료한 후 Data Factory 파이프라인, Spark Notebook 및 고급 보고 기술을 사용하여 완전한 엔터프라이즈 레이크하우스를 빌드하기 위해 레이크하우스로 데이터를 계속 수집 합니다.

이 자습서에서 완료한 단계의 검사 목록은 다음과 같습니다.

Microsoft Fabric이 없는 경우 무료 평가판 용량을 신청하세요.

필수 조건

이 자습서에 OneDrive가 필요한 이유는 무엇인가요?

데이터 수집 프로세스는 파일 업로드를 위한 기본 스토리지 메커니즘으로 OneDrive를 사용하므로 이 자습서에는 OneDrive가 필요합니다. CSV 파일을 Fabric에 업로드하면 레이크하우스에 수집되기 전에 OneDrive 계정에 임시로 저장됩니다. 이 통합은 Microsoft 365 에코시스템 내에서 안전하고 원활한 파일 전송을 보장합니다.

OneDrive를 구성하지 않은 경우 수집 단계가 작동하지 않습니다. 패브릭은 업로드된 파일에 액세스할 수 없기 때문입니다. 레이크하우스 또는 지원되는 다른 위치에서 사용할 수 있는 데이터가 이미 있는 경우 OneDrive가 필요하지 않습니다.

참고 항목

Lakehouse에 이미 데이터가 있는 경우 샘플 CSV 파일 대신 해당 데이터를 사용할 수 있습니다. 데이터가 레이크하우스와 이미 연결되어 있는지 확인하려면 Lakehouse 탐색기 또는 SQL 분석 엔드포인트를 사용하여 테이블, 파일 및 폴더를 찾아봅니다. 확인하는 방법에 대한 자세한 내용은 SQL 분석 엔드포인트를 사용하여 Lakehouse 개요쿼리 레이크하우스 테이블을 참조하세요.

Lakehouse 만들기

이 섹션에서는 Fabric에서 레이크하우스를 만듭니다.

  1. Fabric에 있는 탐색 표시줄에서 작업 공간을 선택합니다.

  2. 작업 영역을 열려면 맨 위에 있는 검색 상자에 해당 이름을 입력하고 검색 결과에서 선택합니다.

  3. 작업 영역에서 새 항목을 선택하고 검색 상자에 Lakehouse 를 입력한 다음 , Lakehouse를 선택합니다.

  4. 새 Lakehouse 대화 상자의 이름 필드에 wwilakehouse를 입력합니다.

    새 레이크하우스 대화 상자의 스크린샷.

  5. 만들기를 선택하여 새 Lakehouse를 만들고 엽니다.

샘플 데이터 수집

이 섹션에서는 Lakehouse에 샘플 고객 데이터를 수집합니다.

참고 항목

OneDrive를 구성하지 않은 경우 Microsoft 365 무료 평가판에 등록합니다. 무료 평가판 - 한 달 동안 Microsoft 365를 사용해 보세요.

  1. Fabric 샘플 리포지토리에서 dimension_customer.csv 파일을 다운로드합니다.

  2. Lakehouse를 선택하고 탭으로 이동합니다.

  3. 데이터 가져오기>새 데이터 흐름 Gen2를 선택하여 새 데이터 흐름을 만듭니다. 이 데이터 흐름을 사용하여 샘플 데이터를 레이크하우스에 입력합니다. 또는 레이크하우스의 데이터 가져오기 아래에서새 데이터 흐름 Gen2 타일을 선택할 수 있습니다.

    레이크하우스에 데이터를 로드하는 새 Dataflow Gen2 옵션을 선택할 위치를 보여 주는 스크린샷

  4. 새 데이터 흐름 Gen2 창의 이름 필드에 고객 차원 데이터를 입력하고 다음을 선택합니다.

    데이터 흐름 이름을 입력할 위치를 보여 주는 새 데이터 흐름 Gen2 창의 스크린샷

  5. 데이터 흐름 탭에서 텍스트/CSV 파일 타일에서 가져오기를 선택합니다.

  6. 데이터 원본에 연결 화면에서 파일 업로드 라디오 단추를 선택합니다.

  7. 1단계에서 다운로드한 dimension_customer.csv 파일을 찾아보거나 끌어서 놓습니다. 파일을 업로드한 후 다음을 선택합니다.

    업로드할 파일을 선택할 위치를 보여 주는 스크린샷

  8. 파일 데이터 미리 보기 페이지에서 데이터를 미리 볼 수 있습니다. 그런 다음 만들기 를 선택하여 계속 진행하고 데이터 흐름 캔버스로 돌아갑니다.

레이크하우스로 데이터 변환 및 로드

이 섹션에서는 비즈니스 요구 사항에 따라 데이터를 변환하고 Lakehouse에 로드합니다.

  1. 쿼리 설정 창에서 이름 필드가 dimension_customer 설정되었는지 확인합니다. 이 이름은 레이크하우스에서 테이블 이름으로 사용되므로 소문자여야 하며 공백을 포함해서는 안 됩니다.

    이름을 입력하고 데이터 대상을 선택할 위치를 보여 주는 쿼리 설정 창의 스크린샷

  2. 레이크하우스에서 데이터 흐름을 만들었으므로 데이터 대상은 레이크하우스로 자동으로 설정됩니다. 쿼리 설정 창에서 데이터 대상 을 확인하여 이를 확인할 수 있습니다.

    팁 (조언)

    레이크하우스 대신 작업 영역에서 데이터 흐름을 만드는 경우 데이터 대상을 수동으로 추가해야 합니다. 자세한 내용은 Dataflow Gen2 기본 대상데이터 대상 및 관리되는 설정을 참조하세요.

  3. 데이터 흐름 캔버스에서 비즈니스 요구 사항에 따라 데이터를 쉽게 변환할 수 있습니다. 편의상, 이 자습서에서는 변경하지 않습니다. 계속하려면 도구 모음에서 저장 및 실행을 선택합니다.

    게시 단추가 포함된 쿼리 설정 창의 스크린샷

    데이터 흐름이 실행이 완료되기를 기다립니다. 진행 중인 동안 회전 상태 표시기가 표시됩니다.

    데이터 흐름 실행 상태를 보여 주는 스크린샷.

  4. 데이터 흐름 실행이 성공적으로 완료되면 상단 메뉴 모음에서 Lakehouse를 선택하여 엽니다.

  5. Lakehouse 탐색기에서 테이블 아래에서 dbo 스키마를 찾고 옆에 있는 ...(줄임표) 메뉴를 선택한 다음 새로 고침을 선택합니다. 그러면 데이터 흐름이 실행되고 원본 파일의 데이터가 lakehouse 테이블로 로드됩니다.

    새로 고침 옵션을 선택할 위치를 보여 주는 Lakehouse 탐색기의 스크린샷

  6. 새로 고침이 완료되면 dbo 스키마를 확장하여 dimension_customer Delta 테이블을 봅니다. 해당 데이터를 미리 보려면 테이블을 선택합니다.

  7. Lakehouse의 SQL 분석 엔드포인트를 사용하여 SQL 문을 사용하여 데이터를 쿼리할 수 있습니다. 화면 오른쪽 위에 있는 드롭다운 메뉴에서 SQL 분석 엔드포인트 를 선택합니다.

    SQL 분석 엔드포인트를 선택할 위치를 보여 주는 Delta 테이블의 스크린샷

  8. dimension_customer 테이블을 선택하여 데이터를 미리 봅니다. SQL 문을 작성하려면 메뉴에서 새 SQL 쿼리 를 선택하거나 새 SQL 쿼리 타일을 선택합니다.

    새 SQL 쿼리를 선택할 위치를 보여 주는 SQL 분석 엔드포인트 화면의 스크린샷.

  9. dimension_customer 테이블의 BuyingGroup 열을 기반으로 행 수를 집계하는 다음 샘플 쿼리를 입력합니다.

    SELECT BuyingGroup, Count(*) AS Total
    FROM dimension_customer
    GROUP BY BuyingGroup
    

    참고 항목

    SQL 쿼리 파일은 이후 참조를 위해 자동으로 저장되며 필요에 따라 이러한 파일의 이름을 바꾸거나 삭제할 수 있습니다.

  10. 스크립트를 실행하려면 스크립트 파일의 맨 위에 있는 실행 아이콘을 선택합니다.

    실행 아이콘 및 쿼리 결과를 보여 주는 스크린샷.

의미 체계 모델에 테이블 추가

이 섹션에서는 테이블을 사용하여 보고서를 만들 수 있도록 의미 체계 모델에 테이블을 추가합니다.

  1. Lakehouse를 열고 SQL 분석 엔드포인트 뷰로 전환합니다.

  2. 새 의미 체계 모델을 선택합니다.

  3. 새 의미 체계 모델 창에서 의미 체계 모델의 이름을 입력하고 작업 영역을 할당한 다음 추가할 테이블을 선택합니다. 이 경우 dimension_customer 테이블을 선택합니다.

    의미 체계 모델에 추가할 테이블을 선택할 수 있는 스크린샷

  4. 확인을 선택하여 의미 체계 모델을 만듭니다.

    경고

    조직의 패브릭 컴퓨팅 용량이 제한을 초과하여 "테이블을 추가하거나 제거할 수 없습니다"라는 오류 메시지가 표시되면 몇 분 정도 기다렸다가 다시 시도하세요. 자세한 내용은 패브릭 용량 설명서를 참조하세요.

  5. 의미 체계 모델은 Direct Lake 스토리지 모드에서 만들어집니다. 즉, 데이터를 가져올 필요 없이 빠른 쿼리 성능을 위해 OneLake의 델타 테이블에서 직접 데이터를 읽습니다. 만든 후 의미 체계 모델을 편집하여 관계, 측정값 등을 추가할 수 있습니다.

    팁 (조언)

    Direct Lake 및 해당 이점에 대한 자세한 내용은 Direct Lake 개요를 참조하세요.

보고서 작성

이 섹션에서는 만든 의미 체계 모델에서 보고서를 작성합니다.

  1. 작업 영역에서 만든 의미 체계 모델을 찾고 ... (줄임표) 메뉴를 선택한 다음 보고서 자동 만들기를 선택합니다.

    보고서를 만들 위치를 보여 주는 작업 영역 개요 페이지의 의미 체계 모델 스크린샷

  2. 테이블은 차원이며 그 안에 측정값이 없습니다. Power BI는 행 개수에 대한 측정값을 만들고, 여러 열에 걸쳐 집계하고, 다음 스크린샷과 같이 다른 차트를 만듭니다.

    네 개의 가로 막대형 차트가 표시된 빠른 요약 페이지의 스크린샷

  3. 위쪽 리본에서 저장을 선택하여 나중에 이 보고서를 저장할 수 있습니다. 다른 테이블이나 열을 포함하거나 제외하여 요구 사항을 충족하기 위해 이 보고서를 추가로 변경할 수 있습니다.

다음 단계