Microsoft Fabric의 데이터 엔지니어링이란?

Microsoft Fabric의 데이터 엔지니어링을 통해 사용자는 조직에서 대량의 데이터를 수집, 저장, 처리 및 분석할 수 있는 인프라 및 시스템을 설계, 빌드 및 기본 수 있습니다.

Microsoft Fabric은 데이터에 쉽게 액세스할 수 있고, 잘 구성되고, 고품질이 되도록 다양한 데이터 엔지니어링 기능을 제공합니다. 데이터 엔지니어링 홈페이지에서 다음을 수행할 수 있습니다.

  • Lakehouse를 사용하여 데이터 만들기 및 관리

  • 레이크하우스에 데이터를 복사하는 파이프라인 디자인

  • Spark 작업 정의를 사용하여 Spark 클러스터에 일괄 처리/스트리밍 작업 제출

  • Notebook을 사용하여 데이터 수집, 준비 및 변환에 대한 코드 작성

    개체 데이터 엔지니어 보여 주는 스크린샷

레이크하우스

Lakehouse는 조직에서 다양한 도구와 프레임워크를 사용하여 해당 데이터를 처리하고 분석하여 구조화되고 구조화되지 않은 데이터를 단일 위치에 저장하고 관리할 수 있는 데이터 아키텍처입니다. 이러한 도구 및 프레임워크에는 SQL 기반 쿼리 및 분석뿐만 아니라 기계 학습 및 기타 고급 분석 기술이 포함될 수 있습니다.

Apache Spark 작업 정의

Spark 작업 정의는 Spark 클러스터에서 작업을 실행하는 방법을 정의하는 지침 집합입니다. 여기에는 Spark 애플리케이션에 대한 입력 및 출력 데이터 원본, 변환 및 구성 설정과 같은 정보가 포함됩니다. Spark 작업 정의를 사용하면 배치/스트리밍 작업을 Spark 클러스터에 제출하고, 레이크하우스에 호스트된 데이터에 다른 변환 논리를 적용하고, 다른 많은 것들과 함께 적용할 수 있습니다.

Notebook

Notebook은 사용자가 라이브 코드, 수식, 시각화 및 설명 텍스트가 포함된 문서를 만들고 공유할 수 있는 대화형 컴퓨팅 환경입니다. 이를 통해 사용자는 Python, R 및 Scala를 비롯한 다양한 프로그래밍 언어로 코드를 작성하고 실행할 수 있습니다. 데이터 수집, 준비, 분석 및 기타 데이터 관련 작업에 Notebook을 사용할 수 있습니다.

데이터 파이프라인

데이터 파이프라인은 데이터를 원시 형식에서 분석 및 의사 결정에 사용할 수 있는 형식으로 수집, 처리 및 변환할 수 있는 일련의 단계입니다. 신뢰할 수 있고 확장 가능하며 효율적인 방식으로 데이터를 원본에서 대상으로 이동하는 방법을 제공하기 때문에 데이터 엔지니어링의 중요한 구성 요소입니다.

Fabric 평가판에 등록할 때 Microsoft Fabric에서 무료로 데이터 엔지니어 사용할 수 있습니다. Microsoft Fabric 용량 또는 패브릭 예약 용량을 구입할 수도 있습니다.

데이터 엔지니어 환경 시작: