Microsoft Fabric으로 데이터를 수집한 후에는 일반적으로 분석 전에 정리, 셰이핑 및 보강해야 합니다. 레이크하우스에서 큐레이팅된 테이블을 준비하는 것이 목표이든, 웨어하우스에서 모델 준비 데이터를 준비하는 것이든, Fabric은 낮은 코드 및 코드 우선 변환 옵션을 모두 제공합니다.
이 문서에서는 시각적, 하위 코드 데이터 준비에 Dataflow Gen2를 사용하는 방법과 고급 코드 기반 변환에 Notebook 및 사용자 데이터 함수를 사용하는 방법을 설명합니다. 역할, 기술 집합 및 워크로드 요구 사항에 가장 적합한 방법을 선택합니다.
Dataflow Gen2를 사용하여 데이터 변환
코드가 낮은 데이터 준비의 경우 Dataflow Gen2를 사용합니다. 데이터 흐름 Gen2는 Excel 및 Power BI에서 사용되는 것과 동일한 기술인 친숙한 파워 쿼리 환경을 사용합니다.
파워 쿼리 인터페이스를 사용하면 필터를 적용하고, 열을 파생하고, 데이터를 집계하고, 쿼리를 병합하고, 시각적인 단계별 워크플로를 통해 다른 변환을 수행할 수 있습니다. Fabric에서 Dataflow Gen2는 독립 실행형 ETL 프로세스 또는 파이프라인 내의 작업으로 실행할 수 있습니다.
예를 들어 원시 판매 데이터를 Lakehouse에 수집한 후 데이터 흐름을 사용하여 중복 항목을 제거하고 열 이름을 표준화하며 비즈니스 규칙을 적용하고 정리된 결과를 Lakehouse의 골드 계층 또는 창고에 큐레이팅된 테이블에 쓸 수 있습니다.
데이터 흐름 Gen2는 패브릭 용량을 사용하여 클라우드에서 실행되므로 사용자 지정 코드 없이도 큰 데이터 세트 및 복잡한 변환으로 확장할 수 있습니다. 데이터 분석가와 BI 개발자는 데이터를 독립적으로 준비하는 동시에 Fabric의 통합 스토리지 기반의 일부로 Lakehouse 또는 Warehouse 테이블에 출력을 작성할 수 있습니다.
Notebook 및 사용자 데이터 함수를 사용하여 코드 우선 준비
코드가 포함된 고급 변환 시나리오의 경우 데이터 엔지니어링 환경에서 Notebook, Spark 작업 및 사용자 데이터 함수를 사용합니다.
Fabric Notebook은 Fabric 포털에서 Jupyter 스타일 환경을 제공합니다. Python, T-SQL 또는 Scala와 같은 언어로 코드를 작성하여 OneLake에 저장된 데이터를 사용할 수 있습니다.
Notebook은 복잡한 변환, 사용자 지정 알고리즘, 데이터 과학 워크플로 및 외부 라이브러리와의 통합에 적합합니다. 예를 들어 레이크하우스에서 Spark DataFrame으로 원시 JSON 또는 Parquet 파일을 로드하고, 다른 데이터 세트와 조인하고, 창이 지정된 집계를 적용하고, 데이터를 보강하고, 결과를 OneLake의 델타 테이블로 다시 저장할 수 있습니다.
노트북은 동일한 작업 공간 내 레이크하우스와 웨어하우스에 직접 통합됩니다. 작업은 패브릭 보안 컨텍스트 내에서 실행되므로 추가 자격 증명 구성 없이 데이터를 읽고 쓸 수 있습니다. Data Factory 파이프라인에서 Notebook 작업을 사용하여 노트북을 오케스트레이션하고 예약할 수도 있습니다.
패브릭 사용자 데이터 함수를 사용하면 Fabric에서 재사용 가능한 Python 논리를 캡슐화할 수 있습니다. 이를 사용하여 고급 비즈니스 규칙을 구현하거나, 외부 서비스를 호출하거나, 모듈식 변환 구성 요소를 빌드할 수 있습니다. 사용자 데이터 함수는 PyPI 라이브러리를 지원하고, 패브릭 데이터 원본에 연결할 수 있으며, 외부 통합을 위해 REST 엔드포인트를 노출할 수 있습니다. 이러한 기능을 사용하면 재사용 가능하고 제어되는 변환 논리가 필요한 엔터프라이즈 시나리오에 적합합니다.
Notebooks, Pipelines, Activator 규칙 및 Power BI 보고서의 Translytical 작업 흐름의 일부로 사용자 데이터 함수를 호출할 수 있습니다.