Microsoft Fabric 판단 가이드: 복사 작업, 데이터 흐름 또는 Spark
이 참조 가이드와 예제 시나리오를 사용하여 Microsoft Fabric 워크로드에 복사 작업, 데이터 흐름 또는 Spark가 필요한지 여부를 결정할 수 있습니다.
복사 작업, 데이터 흐름 및 Spark 속성
파이프라인 복사 작업 | 데이터 흐름 Gen 2 | Spark | |
---|---|---|---|
사용 사례 | 데이터 레이크 및 데이터 웨어하우스 마이그레이션, 데이터 수집, 경량 변환 |
데이터 수집, 데이터 변환, 데이터 랭글링, 데이터 프로파일링 |
데이터 수집, 데이터 변환, 데이터 처리, 데이터 프로파일링 |
기본 개발자 가상 사용자 | 데이터 엔지니어, 데이터 통합자 |
데이터 엔지니어, 데이터 통합자, 비즈니스 분석가 |
데이터 엔지니어, 데이터 과학자, 데이터 개발자 |
기본 개발자 기능 | ETL, SQL, JSON |
ETL, M{_>1<_} SQL |
Spark(Scala, Python, Spark SQL, R) |
작성된 코드 | 코드 없음, 로우코드 |
코드 없음, 로우코드 |
코드 |
데이터 볼륨 | 낮음-높음 | 낮음-높음 | 낮음-높음 |
개발 인터페이스 | 마법사, canvas |
파워 쿼리 | Notebook, Spark 작업 정의 |
원본 | 커넥터 30개 이상 | 커넥터 150개 이상 | Spark 라이브러리 수백 개 |
도착지 | 커넥터 18개 이상 | 레이크하우스, Azure SQL 데이터베이스, Azure Data Explorer, Azure Synapse Analytics |
Spark 라이브러리 수백 개 |
변환 복잡성 | 낮음: 경량 - 형식 변환, 열 매핑, 병합/분할 파일, 평면화 계층 구조 |
낮음에서 높음: 변환 함수 300개 이상 |
낮음에서 높음: 원시 Spark와 오픈 소스 라이브러리 지원 |
Fabric에서 데이터를 사용하는 방법을 선택하는 방법에 대한 도움말은 다음 세 가지 시나리오를 검토하세요.
시나리오 1
데이터 엔지니어인 Leo는 온-프레미스와 클라우드 모두에서 외부 시스템에서 대량의 데이터를 수집해야 합니다. 이 외부 시스템에는 데이터베이스, 파일 시스템 및 API가 포함됩니다. Leo는 각 커넥터 또는 데이터 이동 작업에 대한 코드를 작성하고 유지 관리하지 않습니다. 그는 동메달, 은메달, 금메달과 함께 메달 레이어 모범 사례를 따르고 싶어합니다. Leo는 Spark에 대한 경험이 없으므로 최소한의 코딩으로 UI를 최대한 끌어서 놓는 것을 선호합니다. 또한 일정에 따라 데이터를 처리하려고 합니다.
첫 번째 단계는 Azure 데이터 리소스 및 다양한 타사 원본(예: Snowflake Web, REST, AWS S3, GCS 등)에서 원시 데이터를 브론즈 계층 레이크하우스로 가져오는 것입니다. 다양한 LOB, 온-프레미스 및 클라우드 원본의 모든 데이터가 한 곳에 상주할 수 있도록 통합된 레이크하우스를 원합니다. Leo는 옵션을 검토하고 파이프라인 복사 작업을 원시 이진 복사에 적합한 선택으로 선택합니다. 이 패턴은 기록 및 증분 데이터 새로 고침 모두에 적용됩니다. 복사 작업을 사용하면 필요한 경우 코드 없이 Gold 데이터를 데이터 웨어하우스에 로드할 수 있으며 파이프라인은 페타바이트 규모 데이터를 이동할 수 있는 대규모 데이터 수집을 제공합니다. 복사 작업 페타바이트 규모의 데이터를 임시 또는 일정을 통해 다양한 소스에서 레이크하우스 및 창고로 이동하는 가장 낮은 코드 및 코드 없는 선택입니다.
시나리오 2
Mary는 여러 LOB 분석 보고 요구 사항에 대한 깊은 지식을 갖춘 데이터 엔지니어입니다. 업스트림 팀은 여러 LOB의 기록 및 증분 데이터를 공통 레이크하우스로 마이그레이션하는 솔루션을 성공적으로 구현했습니다. Mary는 각 보고 팀을 준비하기 위해 데이터를 정리하고, 비즈니스 논리를 적용하고, 여러 대상(예: Azure SQL DB, ADX 및 레이크하우스)에 로드하는 임무를 맡았습니다.
Mary는 숙련된 파워 쿼리 사용자이며, 데이터 볼륨은 원하는 성능을 얻기 위해 낮은 범위에서 중간 범위까지입니다. 데이터 흐름은 수백 개의 데이터 원본에서 데이터를 수집하기 위한 코드 없음 또는 하위 코드 인터페이스를 제공합니다. 데이터 흐름을 사용하면 300여 가지 데이터 변환 옵션을 사용하여 데이터를 변환하고, 사용하기 쉽고 시각적인 사용자 인터페이스를 사용하여 결과를 여러 대상에 쓸 수 있습니다. Mary는 옵션을 검토하고 Dataflow Gen 2를 선호하는 변환 옵션으로 사용하는 것이 합리적이라고 결정합니다.
시나리오 3
Adam은 레이크하우스를 사용하여 고객 데이터를 저장하고 분석하는 대형 소매 회사에서 일하는 데이터 엔지니어입니다. Adam은 작업의 일환으로 데이터를 추출, 변환 및 레이크하우스로 로드하는 데이터 파이프라인을 빌드하고 유지 관리하는 일을 담당합니다. 회사의 비즈니스 요구 사항 중 하나는 고객 검토 분석을 수행하여 고객의 환경에 대한 인사이트를 얻고 서비스를 개선하는 것입니다.
Adam은 Spark를 사용하여 추출 및 변환 논리를 빌드하는 것이 가장 좋은 옵션이라고 결정합니다. Spark는 대량의 데이터를 병렬로 처리할 수 있는 분산 컴퓨팅 플랫폼을 제공합니다. 그는 고객 검토 및 피드백을 위해 OneLake에서 구조화되고 반구조화되고 구조화되지 않은 데이터를 읽는 Python 또는 Scala를 사용하여 Spark 애플리케이션을 작성합니다. 애플리케이션은 레이크하우스의 델타 테이블에 데이터를 정리, 변환 및 씁니다. 그런 다음 다운스트림 분석에 데이터를 사용할 준비가 됩니다.