데이터 흐름 코드 조각을 사용하여 행 중복 제거 및 Null 검색

아티클
05/15/2024

적용 대상: Azure Data Factory Azure Synapse Analytics

팁

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

매핑 데이터 흐름에서 코드 조각을 사용하여 데이터 중복 제거 및 Null 필터링과 같은 일반적인 작업을 손쉽게 수행할 수 있습니다. 이 문서에서는 데이터 흐름 스크립트 코드 조각을 사용하여 파이프라인에 이러한 함수를 쉽게 추가하는 방법을 설명합니다.

파이프라인을 만듭니다.

새 파이프라인을 선택합니다.
데이터 흐름 작업을 추가합니다.
원본 설정 탭을 선택하고 원본 변환을 추가한 다음 데이터 세트 중 하나에 연결합니다.

중복 제거 및 Null 검사 코드 조각은 데이터 흐름 스키마 드리프트를 활용하는 일반 패턴을 사용합니다. 이 코드 조각은 데이터 세트의 스키마 또는 미리 정의된 스키마가 없는 데이터 세트에 사용할 수 있습니다.
DFS(데이터 흐름 스크립트)의 '모든 열을 사용하는 고유 행' 섹션에서 DistinctRows용 코드 조각을 복사합니다.
데이터 흐름 스크립트 설명서 페이지로 이동하여 Distinct Rows용 코드 조각을 복사합니다.
스크립트의 source1 정의 뒤에서 Enter 키를 누른 다음 코드 조각을 붙여넣습니다.
다음 중 하나를 수행합니다.
- 붙여넣은 코드 앞에 source1를 입력하여 이 붙여넣은 코드 조각을 앞서 그래프에서 만든 원본 변환에 연결합니다.
- 또는 그래프의 새 변환 노드에서 들어오는 스트림을 선택하여 디자이너에서 새 변환을 연결할 수 있습니다.
이제 데이터 흐름은 모든 열 값에서 일반 해시를 사용하여 모든 행을 기준으로 그룹화하는 집계 변환을 사용하여 원본에서 중복 행을 제거합니다.
데이터를 Null이 포함된 행의 스트림과 Null이 포함되지 않은 다른 스트림으로 분할하는 코드 조각을 추가합니다. 수행할 작업:
코드 조각 라이브러리로 돌아가서 이번에는 NULL 검사용 코드를 복사합니다.

b. 데이터 흐름 디자이너에서 스크립트를 다시 선택하고 맨 아래에 이 새 변환 코드를 붙여넣습니다. 이 작업은 붙여넣은 코드 조각 앞에 해당 변환의 이름을 배치하여 스크립트를 이전 변환에 연결합니다.

이제 데이터 흐름 그래프가 다음과 같이 표시됩니다.