다음을 통해 공유


데이터 프로파일링 태스크 및 뷰어

적용 대상: Azure Data Factory의 SQL Server SSIS Integration Runtime

데이터 프로파일링 태스크는 데이터를 추출, 변환 및 로드하는 프로세스 내에서 데이터 프로파일링 기능을 제공합니다. 데이터 프로파일링 태스크를 사용하면 다음과 같은 이점이 있습니다.

  • 보다 효과적으로 원본 데이터 분석

  • 원본 데이터를 더 잘 이해

  • 데이터 웨어하우스에 도입되기 전에 데이터 품질 문제 방지

Important

데이터 프로파일링 태스크는 SQL Server에서 저장된 데이터만 사용할 수 있습니다. 이 태스크는 타사 또는 파일 기반 데이터 원본을 사용할 수 없습니다.

데이터 프로파일링 개요

데이터 품질은 모든 비즈니스에 중요합니다. 기업이 트랜잭션 시스템을 기반으로 분석 및 비즈니스 인텔리전스 시스템을 구축함에 따라 주요 성과 지표 및 데이터 마이닝 예측의 안정성은 기반이 되는 데이터의 유효성에 완전히 따라 달라집니다. 그러나 비즈니스 의사 결정에 유효한 데이터의 중요성이 증가하고 있지만 이 데이터의 유효성을 확인하는 과제도 증가하고 있습니다. 데이터는 다양한 시스템과 원본, 그리고 많은 수의 사용자로부터 지속적으로 엔터프라이즈로 스트리밍됩니다.

데이터 품질에 대한 메트릭은 도메인 또는 애플리케이션과 관련이 있으므로 정의하기 어려울 수 있습니다. 데이터 품질을 정의하는 일반적인 방법 중 하나는 데이터 프로파일링입니다.

데이터 프로필은 다음을 포함할 수 있는 데이터에 대한 집계 통계의 컬렉션입니다.

  • 고객 테이블의 행 수입니다.

  • State 열의 고유 값 수

  • Zip 열의 Null 값 또는 누락된 값 수

  • City 열의 값 분포입니다.

  • State 열의 Zip 열에 대한 함수 종속성 수준(시/도는 지정된 우편 번호 값에 대해 항상 같아야 함)

데이터 프로필이 제공하는 통계를 통해 원본 데이터를 사용하여 발생할 수 있는 품질 문제를 효과적으로 최소화하기 위해 필요한 정보를 얻을 수 있습니다.

Integration Services 및 데이터 프로파일링

Integration Services에서 데이터 프로파일링 프로세스는 다음 단계로 구성됩니다.

1단계: 데이터 프로파일링 태스크 설정
데이터 프로파일링 태스크는 컴퓨팅하려는 프로필을 구성하기 위해 사용하는 태스크입니다. 그런 다음, 데이터 프로파일링 태스크가 포함된 패키지를 실행하여 프로필을 계산합니다. 이 작업은 프로필 출력을 XML 형식으로 파일 또는 패키지 변수에 저장합니다.

자세한 내용: 데이터 프로파일링 태스크 설정

2단계: 데이터 프로파일링 태스크가 계산하는 프로필 검토
데이터 프로파일링 태스크에서 계산하는 데이터 프로필을 보려면 출력을 파일로 보낸 다음 데이터 프로필 뷰어를 사용합니다. 이 뷰어는 선택적 드릴다운 기능을 사용하여 프로필 출력을 요약 및 세부 정보 형식으로 표시하는 독립 실행형 유틸리티입니다.

자세한 내용: 데이터 프로필 뷰어

데이터 프로파일링 워크플로에 조건부 논리 추가

데이터 프로파일링 태스크에는 조건부 논리를 사용하여 프로필 출력에 따라 해당 태스크를 다운스트림 태스크에 연결할 수 있는 기본 제공 기능이 없습니다. 그러나 이 논리는 스크립트 태스크를 사용하여 약간의 프로그래밍 작업으로 손쉽게 추가할 수 있습니다. 예를 들어 스크립트 태스크는 데이터 프로파일링 태스크의 출력 파일에 대해 XPath 쿼리를 수행할 수 있습니다. 쿼리는 특정 열의 null 값 백분율이 특정 임계값을 초과하는지 여부를 결정할 수 있습니다. 해당 백분율이 임계값을 초과하는 경우 패키지를 중단하고 원본 데이터에서 문제를 해결한 다음 계속할 수 있습니다. 자세한 내용은 패키지 워크플로에서 데이터 프로파일링 작업 통합을 참조하세요.

데이터 프로파일러 스키마