Microsoft Fabric의 레이크하우스란?

Microsoft Fabric Lakehouse는 구조화되고 구조화되지 않은 데이터를 단일 위치에 저장, 관리 및 분석하기 위한 데이터 아키텍처 플랫폼입니다. 조직에서 다양한 도구와 프레임워크를 사용하여 대량의 데이터를 처리하여 해당 데이터를 처리하고 분석할 수 있는 유연하고 확장 가능한 솔루션입니다. 다른 데이터 관리 및 분석 도구와 통합되어 데이터 엔지니어링 및 분석을 위한 포괄적인 솔루션을 제공합니다.

Gif of overall lakehouse experience.

Lakehouse SQL 분석 엔드포인트

Lakehouse는 만드는 동안 SQL 분석 엔드포인트 및 기본 의미 체계 모델을 자동으로 생성하여 서비스 계층을 만듭니다. 이 새로운 시에스루 기능을 사용하면 사용자가 레이크의 델타 테이블 바로 위에서 직접 작업하여 데이터 수집에서 보고에 이르기까지 마찰없고 성능이 좋은 환경을 제공할 수 있습니다.

SQL 분석 엔드포인트는 읽기 전용 환경이며 트랜잭션 데이터 웨어하우스의 전체 T-SQL 노출 영역을 지원하지 않는다는 점에 유의해야 합니다.

참고 항목

델타 형식의 테이블만 SQL 분석 엔드포인트에서 사용할 수 있습니다. Parquet, CSV 및 기타 형식은 SQL 분석 엔드포인트를 사용하여 쿼리할 수 없습니다. 테이블이 표시되지 않으면 델타 형식으로 변환해야 합니다.

자동 테이블 검색 및 등록

자동 테이블 검색 및 등록은 데이터 엔지니어 및 데이터 과학자를 위한 완전 관리형 파일을 테이블 환경으로 제공하는 Lakehouse의 기능입니다. 파일을 Lakehouse의 관리되는 영역에 놓을 수 있으며 시스템은 지원되는 구조적 형식에 대한 유효성을 자동으로 검사하고 열 이름, 형식, 압축 등과 같은 필요한 메타데이터를 사용하여 메타스토어에 등록합니다. (현재 지원되는 형식은 델타 테이블뿐입니다.) 그런 다음 파일을 테이블로 참조하고 SparkSQL 구문을 사용하여 데이터와 상호 작용할 수 있습니다.

Lakehouse 항목과 상호 작용

데이터 엔지니어는 다음과 같은 여러 가지 방법으로 레이크하우스 및 레이크하우스 내의 데이터와 상호 작용할 수 있습니다.

  • 레이크하우스 탐색기: 탐색기는 기본 레이크하우스 상호 작용 페이지입니다. Lakehouse에서 데이터를 로드하고, 개체 탐색기를 사용하여 Lakehouse에서 데이터를 탐색하고, MIP 레이블 및 기타 다양한 항목을 설정할 수 있습니다. 탐색기 환경에 대해 자세히 알아보세요. 패브릭 레이크하우스 탐색기를 탐색합니다.

  • Notebooks: 데이터 엔지니어는 Notebook을 사용하여 레이크하우스에 테이블 및/또는 폴더로 직접 읽고, 변환하고, 쓰는 코드를 작성할 수 있습니다. Lakehouse용 Notebook을 사용하는 방법에 대해 자세히 알아볼 수 있습니다. Notebook을 사용하여 레이크하우스의 데이터를 탐색하고 Notebook을 사용하여 레이크하우스에 데이터를 로드하는 방법을 알아봅니다.

  • 파이프라인: 데이터 엔지니어는 파이프라인 복사 도구와 같은 데이터 통합 도구를 사용하여 다른 원본에서 데이터를 가져와 Lakehouse로 가져올 수 있습니다. 복사 작업을 사용하는 방법에 대한 자세한 정보: 복사 작업을 사용하여 데이터를 복사하는 방법을 알아봅니다.

  • Apache Spark 작업 정의: 데이터 엔지니어는 강력한 애플리케이션을 개발하고 Java, Scala 및 Python에서 컴파일된 Spark 작업의 실행을 오케스트레이션할 수 있습니다. Spark 작업에 대해 자세히 알아보세요. Apache Spark 작업 정의란?

  • 데이터 흐름 Gen 2: 데이터 엔지니어는 Dataflows Gen 2를 사용하여 데이터를 수집하고 준비할 수 있습니다. 데이터 흐름을 사용하여 데이터 로드에 대한 자세한 정보 찾기: 데이터를 가져와서 변환하는 첫 번째 데이터 흐름을 만듭니다.

레이크하우스에 데이터를 로드하는 다양한 방법, 즉 패브릭 레이크하우스로 데이터를 가져오는 옵션에 대해 자세히 알아봅니다.

레이크하우스를 사용한 멀티태스킹

멀티태스킹 환경은 데이터 레이크하우스를 그 어느 때보다 효율적으로 관리할 수 있도록 여러 항목을 원활하게 열고 전환할 수 있는 브라우저 탭 디자인을 제공합니다. 더 이상 다른 창 사이를 저글링하거나 작업의 추적을 잃고 없습니다. Lakehouse는 다음과 같은 기능을 통해 데이터 관리 경험을 최대한 효율적이고 사용자에게 친숙하게 만들 수 있는 향상된 멀티태스킹 환경을 제공합니다.

  • 실행 중인 작업 유지: 한 탭에서 데이터 로드 작업을 업로드하거나 실행하고 다른 탭의 다른 작업에 검사 수 있습니다. 향상된 다중 작업에서는 탭 간을 탐색할 때 실행 중인 작업이 취소되지 않습니다. 중단 없이 작업에 집중할 수 있습니다.

  • 컨텍스트를 유지합니다. 선택한 개체, 데이터 테이블 또는 파일을 다시 열고 탭 간에 전환할 때 즉시 사용할 수 기본. 데이터 레이크하우스의 컨텍스트는 항상 손쉽게 확인할 수 있습니다.

  • 비차단 목록 다시 로드: 파일 및 테이블 목록에 대한 차단 해제 다시 로드 메커니즘입니다. 목록을 백그라운드에서 새로 고치는 동안 작업을 계속할 수 있습니다. 이를 통해 원활하고 중단 없는 환경을 제공하면서 최신 데이터를 사용할 수 있습니다.

  • 명확하게 정의된 알림: 알림 메시지는 들어오는 레이크하우스를 지정하므로 멀티태스킹 환경에서 변경 내용 및 업데이트를 더 쉽게 추적할 수 있습니다.

접근성 있는 레이크하우스 디자인

접근성은 항상 Lakehouse가 모든 사람에게 포괄적이고 사용자에게 친숙한지 확인하는 최우선 순위였습니다. 접근성을 지원하기 위해 지금까지 구현한 주요 이니셔티브는 다음과 같습니다.

  • 화면 읽기 프로그램 호환성: 널리 사용되는 화면 읽기 프로그램과 원활하게 작업할 수 있으므로 시각 장애가 있는 사용자가 플랫폼을 효과적으로 탐색하고 상호 작용할 수 있습니다.

  • 다양한 화면 크기 및 방향에 맞게 조정되는 텍스트 재배치 반응형 디자인입니다. 텍스트 및 콘텐츠가 동적으로 재배치되므로 사용자가 다양한 디바이스에서 애플리케이션을 보다 쉽게 보고 상호 작용할 수 있습니다.

  • 키보드 탐색: 사용자가 마우스를 사용하지 않고 레이크하우스를 통과할 수 있도록 키보드 탐색 기능이 향상되어 운동 장애가 있는 사용자의 환경이 향상되었습니다.

  • 이미지에 대한 대체 텍스트: 이제 모든 이미지에는 설명이 포함된 대체 텍스트가 포함되므로 화면 읽기 프로그램에서 의미 있는 정보를 전달할 수 있습니다.

  • 양식 필드 및 레이블: 모든 양식 필드에는 연결된 레이블이 있으므로 화면 읽기 프로그램을 사용하는 사용자를 포함하여 모든 사용자에 대한 데이터 입력이 간소화됩니다.

이 개요에서는 레이크하우스에 대한 기본적인 이해를 얻을 수 있습니다. 다음 문서로 이동하여 사용자 고유의 레이크하우스를 만들고 사용하는 방법을 알아봅니다.

  • 레이크하우스 사용을 시작하려면 Microsoft Fabric에서 레이크하우스 만들기를 참조 하세요.