다음을 통해 공유


값 포함 프로필 요청 옵션(데이터 프로파일링 태스크)

적용 대상: Azure Data Factory의 SQL Server SSIS Integration Runtime

프로필 요청 페이지의 요청 속성 창을 사용하여 요청 창에서 선택한 값 포함 프로필 요청의 옵션을 설정할 수 있습니다. 값 포함 프로필은 두 개의 열 또는 열 집합 간에 겹치는 값을 계산합니다. 따라서 이 프로필은 열 또는 열 집합이 선택한 테이블 간의 외래 키 역할을 수행하기에 적합한지 여부도 확인할 수 있습니다. 이 프로필을 사용하면 잘못된 값과 같은 데이터 문제도 식별할 수 있습니다. 예를 들어 값 포함 프로필을 사용하여 Sales 테이블의 ProductID 열을 프로파일합니다. 프로필은 열에 Products 테이블의 ProductID 열에서 찾을 수 없는 값이 포함되어 있음을 찾아냅니다.

참고 항목

이 항목에 설명된 옵션은 데이터 프로파일링 작업 편집기프로필 요청 페이지에 표시됩니다. 편집기의 이 페이지에 대한 자세한 내용은 데이터 프로파일링 작업 편집기(프로필 요청 페이지)를 참조하세요.

데이터 프로파일링 태스크를 사용하는 방법에 대한 자세한 내용은 데이터 프로파일링 태스크 설정을 참조하세요. 데이터 프로필 뷰어를 사용하여 데이터 프로파일링 태스크의 출력을 분석하는 방법에 대한 자세한 내용은 데이터 프로필 뷰어를 참조하세요.

InclusionColumns 속성에 대한 열 선택 이해

값 포함 프로필 요청 은 하위 집합의 모든 값이 상위 집합에 있는지 여부를 계산합니다. 상위 집합은 종종 조회 또는 참조 테이블입니다. 예를 들어 주소 테이블의 상태 열은 하위 집합 테이블입니다. 이 열의 모든 두 문자 상태 코드는 상위 집합 테이블인 미국 우편 서비스 상태 코드 테이블에서도 찾을 수 있습니다.

하위 집합 열 또는 상위 집합 열의 값으로 (*) 와일드카드를 사용하는 경우 데이터 프로파일링 작업은 해당 쪽의 각 열을 다른 쪽에 지정된 열과 비교합니다.

참고 항목

(*)를 선택하는 경우 이 옵션으로 인해 계산이 많이 발생하여 작업의 성능이 저하될 수 있습니다.

임계값 설정의 이해

두 가지 임계값 설정을 사용하여 값 포함 프로필 요청의 출력을 구체화할 수 있습니다.

InclusionThresholdSetting에 대해 None 이외의 값을 지정하면 프로필은 다음 조건 중 하나에서만 상위 집합에 있는 하위 집합의 포함 강도를 보고합니다.

  • 포함 강도가 InclusionStrengthThreshold에 지정된 임계값을 초과하는 경우

  • 포함 강도의 값이 1.0이고 InclusionStrengthThresholdExact로 설정된 경우.

고유하지 않은 값으로 인해 상위 집합 열이 상위 집합 테이블에 적합한 키가 아닌 조합을 필터링하여 출력을 더 구체화할 수 있습니다. SupersetColumnsKeyThresholdSetting에 대해 None 이외의 값을 지정하면 프로필은 다음 조건 중 하나에서만 상위 집합에 있는 하위 집합의 포함 강도를 보고합니다.

  • 상위 집합 테이블에서 상위 집합 열이 키로 적합한 정도를 나타내는 값이 SupersetColumnsKeyThreshold에 지정된 임계값을 초과하는 경우

  • 포함 강도에 값이 1.0이고 SupersetColumnsKeyThresholdExact로 설정된 경우

속성 요청 옵션

값 포함 프로필 요청에 대해 요청 속성 창에는 다음 옵션 그룹이 표시됩니다.

  • SubsetTableOrView, SupersetTableOrViewInclusionColumns 옵션을 포함하는 데이터

  • 일반

  • 옵션

데이터 옵션

ConnectionManager
SQL Server용 .NET 데이터 공급자(SqlClient)를 사용하여 프로파일링할 테이블이나 보기가 포함된 SQL Server 데이터베이스에 연결하는 기존 ADO.NET 연결 관리자를 선택합니다.

SubsetTableOrView
프로파일링할 기존 테이블이나 뷰를 선택합니다.

자세한 정보는 이 항목의 "SubsetTableOrView 및 SupersetTableOrView 옵션" 섹션을 참조하세요.

SupersetTableOrView
프로파일링할 기존 테이블이나 뷰를 선택합니다.

자세한 정보는 이 항목의 "SubsetTableOrView 및 SupersetTableOrView 옵션" 섹션을 참조하세요.

InclusionColumns
하위 집합 및 상위 집합 테이블에서 열 또는 열 집합을 선택합니다.

자세한 정보는 이 항목의 "InclusionColumns 속성에 대한 열 선택 이해" 및 "InclusionColumns 옵션" 섹션을 참조하세요.

SubsetTableOrView 및 SupersetTableOrView 옵션

스키마
선택한 테이블이 속한 스키마를 지정합니다. 이 옵션은 읽기 전용입니다.

TableOrView
선택한 데이터베이스의 이름을 표시합니다. 이 옵션은 읽기 전용입니다.

InclusionColumns 옵션

InclusionColumns에서 프로파일링을 위해 선택한 각 열 집합에 대해 다음 옵션이 제공됩니다.

자세한 정보는 이 항목의 앞부분에 있는 "InclusionColumns 속성에 대한 열 선택 이해" 섹션을 참조하세요.

IsWildcard
(*) 와일드카드가 선택되었는지 여부를 지정합니다. 이 옵션은 모든 열을 프로파일링하도록 (*)를 선택한 경우 True로 설정됩니다. 프로파일링할 개별 열을 선택한 경우 False입니다. 이 옵션은 읽기 전용입니다.

ColumnName
선택한 열의 이름을 표시합니다. 이 옵션은 모든 열을 프로파일링하도록 (*)를 선택한 경우 비어 있습니다. 이 옵션은 읽기 전용입니다.

StringCompareOptions
문자열 값을 비교할 수 있는 옵션을 선택합니다. 이 속성의 옵션은 다음 테이블에 나열되어 있습니다. 이 옵션의 기본값은 Default입니다.

참고 항목

ColumnName에 대해 (*) 와일드카드를 사용하는 경우 CompareOptions가 읽기 전용이 되며 Default 설정으로 설정됩니다.

설명
기본값 원본 테이블의 열 데이터 정렬에 따라 데이터를 정렬하고 비교합니다.
BinarySort 각 문자에 대해 정의된 비트 패턴을 기준으로 데이터를 정렬하고 비교합니다. 이진 정렬 순서는 대/소문자와 악센트를 구분합니다. 이진은 가장 빠른 정렬 순서입니다.
DictionarySort 연결된 언어 또는 알파벳의 사전에 정의된 정렬 및 비교 규칙을 기반으로 데이터를 정렬하고 비교합니다.

DictionarySort를 선택하는 경우 다음 표에 나열된 옵션 조합을 선택할 수도 있습니다. 이러한 추가 옵션은 기본적으로 선택되어 있지 않습니다.

설명
IgnoreCase 비교에서 대문자와 소문자를 구분하는지 여부를 지정합니다. 이 옵션을 설정하면 문자열 비교에서 대소문자 형식을 무시합니다. 예를 들어 "ABC"는 "abc"와 동일합니다.
IgnoreNonSpace 비교에서 공백 문자와 분음 부호를 구분할지 여부를 지정합니다. 이 옵션을 설정하면 비교에서 분음 부호를 무시합니다. 예를 들어 "Ã¥"는 "a"와 동일합니다.
IgnoreKanaType 일본어 가나 문자의 두 가지 유형인 히라가나 및 가타가나를 구분합니다. 이 옵션을 설정하면 문자열 비교에서 가나 형식을 무시합니다.
IgnoreWidth 비교에서 같은 문자라도 싱글 바이트 문자와 더블 바이트 문자로 표기되었을 때를 구분할지 여부를 지정합니다. 이 옵션을 설정하면 문자열 비교 시 동일 문자에 대한 싱글바이트 표현과 더블바이트 표현이 동일하게 인식됩니다.

일반 옵션

RequestID
설명이 포함된 이름을 입력하여 이 프로필 요청을 식별합니다. 일반적으로 자동 생성된 값을 변경할 필요가 없습니다.

옵션

InclusionThresholdSetting
임계값 설정을 선택하여 프로필의 출력을 구체화합니다. 이 속성의 기본값은 Specified입니다. 자세한 정보는 이 주제의 앞 부분 “임계값 설정의 이해”를 참조하세요.

설명
없음 임계값을 지정하지 않습니다. 키 수준은 해당 값에 관계없이 보고됩니다.
Specified InclusionStrengthThreshold에 지정된 임계값을 사용합니다. 포함 강도가 임계값보다 큰 경우에만 보고됩니다.
Exact 임계값을 지정하지 않습니다. 포함 강도는 하위 집합 값이 upserset 값에 완료된 경우에만 보고됩니다.

InclusionStrengthThreshold
포함 강도를 보고해야 하는 임계값(0에서 1 사이의 값을 사용하여)을 지정합니다. 이 속성의 기본값은 0.95입니다. 이 옵션은 InclusionThresholdSetting으로 지정된 경우에만 사용할 수 있습니다.

자세한 정보는 이 주제의 앞 부분 “임계값 설정의 이해”를 참조하세요.

SupersetColumnsKeyThresholdSetting
상위 집합 임계값을 지정합니다. 이 속성의 기본값은 Specified입니다. 자세한 정보는 이 주제의 앞 부분 “임계값 설정의 이해”를 참조하세요.

설명
없음 임계값을 지정하지 않습니다. 포함 강도는 상위 집합 열의 키 강도에 관계없이 보고됩니다.
Specified SupersetColumnsKeyThreshold에 지정된 임계값을 사용합니다. 포함 수준은 상위 집합 열의 키 수준이 임계값보다 큰 경우에만 보고됩니다.
Exact 임계값을 지정하지 않습니다. 포함 강도는 상위 집합 테이블의 정확한 키인 경우에만 보고됩니다.

SupersetColumnsKeyThreshold
포함 강도를 보고해야 하는 임계값(0에서 1 사이의 값을 사용하여)을 지정합니다. 이 속성의 기본값은 0.95입니다. SpecifiedSupersetColumnsKeyThresholdSetting으로 선택된 경우에만 이 옵션을 사용할 수 있습니다.

자세한 정보는 이 주제의 앞 부분 “임계값 설정의 이해”를 참조하세요.

MaxNumberOfViolations
출력에서 보고할 최대 포함 위반 수를 지정합니다. 이 속성의 기본값은 100입니다. ExactInclusionThresholdSetting으로 선택된 경우 이 옵션을 사용할 수 없습니다.

참고 항목

데이터 프로파일링 태스크 편집기(일반 페이지)
단일 테이블 빠른 프로필 형식(데이터 프로파일링 태스크)