다음을 통해 공유


데이터 랭글링으로 데이터 준비

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

데이터 팩터리의 데이터 랭글링을 사용하면 대화형 파워 쿼리 매시업을 ADF에 기본적으로 빌드할 수 있으며 ADF 파이프라인 내에서 대규모로 실행할 수 있습니다.

파워 쿼리 활동 만들기

Azure Data Factory에서 파워 쿼리를 만드는 방법에는 두 가지가 있습니다. 한 가지 방법은 더하기 아이콘을 클릭하여 팩터리 리소스 창에서 Power Query를 선택하는 것입니다.

Screenshot that shows Power Query in the factory resources pane.

다른 방법은 파이프라인 캔버스의 작업 창에 있습니다. 파워 쿼리 아코디언을 열고 파워 쿼리 활동을 캔버스로 끌어 놓습니다.

Screenshot that highlights the data wrangling option.

파워 쿼리 데이터 랭글링 활동 작성

파워 쿼리 매시업에 대한 원본 데이터 세트를 추가합니다. 기존 데이터 세트를 선택하거나 새 데이터 세트를 만들 수 있습니다. 매시업을 저장한 후에는 파이프라인을 만들고 파워 쿼리 데이터 랭글링 활동을 파이프라인에 추가하고 싱크 데이터 세트를 선택하여 ADF에 데이터를 저장할 위치를 알릴 수 있습니다. 하나 이상의 원본 데이터 세트를 선택할 수 있지만 지금은 싱크가 하나만 허용됩니다. 싱크 데이터 세트 선택은 필수가 아니지만 하나 이상의 원본 데이터 세트 선택은 필수입니다.

Wrangling

만들기를 클릭하여 파워 쿼리 온라인 매시업 편집기를 엽니다.

먼저 매시업 편집기에 대한 데이터 세트 원본을 선택합니다.

Power Query source.

파워 쿼리 빌드를 완료하면 이를 저장한 다음, 파이프라인을 만들 수 있습니다. 매시업을 파이프라인에 작업으로 추가해야 합니다. 싱크 데이터 세트를 만들거나 선택하여 데이터를 배치할 때입니다. 싱크된 데이터 세트의 오른쪽에 있는 두 번째 단추를 클릭하여 싱크 데이터 세트 속성을 설정할 수도 있습니다. 단일 출력 파일만 얻으려면 "최적화" 아래의 "파티션 옵션"을 "단일 파티션"으로 변경해야 합니다.

Power Query sink.

코드 없는 데이터 준비를 사용하여 랭글링 파워 쿼리를 작성합니다. 사용 가능한 함수 목록은 변환 함수를 참조하세요. ADF는 M 스크립트를 데이터 흐름 스크립트로 변환하므로 Azure Data Factory 데이터 흐름 Spark 환경을 사용하여 대규모로 파워 쿼리를 실행할 수 있습니다.

Screenshot that shows the process for authoring your data wrangling Power Query.

파워 쿼리 데이터 랭글링 활동 실행 및 모니터링

파워 쿼리 활동의 파이프라인 디버그 실행을 실행하려면 파이프라인 캔버스에서 디버그를 클릭합니다. 파이프라인을 게시하면 지금 트리거로 마지막에 게시된 파이프라인의 주문형 실행을 실행합니다. 파워 쿼리 파이프라인은 모든 기존 Azure Data Factory 트리거를 사용하여 예약할 수 있습니다.

Screenshot that shows how to add a Power Query data wrangling activity.

모니터 탭으로 이동하여 트리거된 파워 쿼리 활동 실행의 출력을 시각화합니다.

Screenshot that shows the output of a triggered wrangling Power Query activity run.

매핑 데이터 흐름 만들기 방법에 대해 알아봅니다.