다음을 통해 공유


열 패턴 프로필 요청 옵션(데이터 프로파일링 태스크)

적용 대상: Azure Data Factory의 SQL Server SSIS Integration Runtime

프로필 요청 페이지의 요청 속성 창을 사용하여 요청 창에서 선택한 열 패턴 프로필 요청의 옵션을 설정할 수 있습니다. 열 패턴 프로필은 문자열 열에서 지정된 값의 백분율을 포괄하는 정규식 집합을 보고합니다. 이 프로필을 사용하면 잘못된 문자열과 같은 데이터 문제를 식별하는 데 도움이 되며 앞으로 새 값의 유효성 검사에 사용할 수 있는 정규식을 제안 받을 수 있습니다. 예를 들어 미국 우편 번호 열의 패턴 프로필이 \d{5}-\d{4}, \d{5}, and \d{9} 정규식을 생성할 수 있습니다. 다른 정규식이 발견된다면 데이터에 유효하지 않거나 잘못된 형식의 값이 포함되어 있을 가능성이 높습니다.

참고 항목

이 항목에 설명된 옵션은 데이터 프로파일링 작업 편집기프로필 요청 페이지에 표시됩니다. 편집기의 이 페이지에 대한 자세한 내용은 데이터 프로파일링 작업 편집기(프로필 요청 페이지)를 참조하세요.

데이터 프로파일링 태스크를 사용하는 방법에 대한 자세한 내용은 데이터 프로파일링 태스크 설정을 참조하세요. 데이터 프로필 뷰어를 사용하여 데이터 프로파일링 태스크의 출력을 분석하는 방법에 대한 자세한 내용은 데이터 프로필 뷰어를 참조하세요.

구분 기호 및 기호 사용 이해

열 패턴 프로필 요청에 대한 패턴을 계산하기 전에 데이터 프로파일링 태스크는 데이터를 토큰화합니다. 즉, 태스크는 문자열 값을 토큰이라고 하는 더 작은 단위로 구분합니다. 이 작업은 구분 기호기호 속성에 대해 지정한 구분 기호 및 호에 따라 문자열을 토큰으로 구분합니다.

  • 구분 기호 기본적으로 구분 기호 목록에는 공백, 가로 탭(\t), 새 줄(\n) 및 캐리지 리턴(\r)과 같은 문자를 포함합니다. 추가 구분 기호를 지정할 수 있지만 기본 구분 기호는 제거할 수 없습니다.

  • 기호 기본적으로 기호 목록에는 눈금과 같은 ,.;:-"'~=&/@!?()<>[]{}|#*^% 문자가 포함됩니다. 예를 들어 기호가 "()-"인 경우 값 "(425) 123-4567"은 ["(",", "425", ")", "123", "-", "4567", ")"]로 토큰화됩니다.

문자는 구분 기호와 기호가 될 수 없습니다.

모든 구분 기호는 토큰화 프로세스의 일환으로 단일 공백으로 정규화됩니다. 반면 기호는 유지됩니다.

태그 테이블 사용 이해

SQL Server 데이터베이스에서 만든 특수 테이블에 태그 및 관련 용어를 저장하여 관련 토큰을 단일 태그를 사용하여 그룹화할 수도 있습니다. 태그 테이블에는 "Tag"라는 문자열 열과 "Term"이라는 두 개의 문자열 열이 있어야 합니다. 이러한 열의 유형은 char, nchar, varchar또는 nvarchar일 수 있지만 text 또는 ntext일 수는 없습니다. 여러 태그와 해당 용어를 단일 테이블에서 결합할 수 있습니다. 열 패턴 프로필 요청은 하나의 태그 테이블만 사용할 수 있습니다. 별도의 ADO.NET 연결 관리자를 사용하여 태그 테이블에 연결할 수 있습니다. 따라서 태그 테이블은 다른 데이터베이스에 있거나 원본 데이터와 다른 서버에 있을 수 있습니다.

예를 들어 단일 태그 "Direction"을 사용하여 주소에 나타날 수 있는 값 "East", "West", "North" 및 "South"를 그룹화할 수 있습니다. 다음 테이블은 이러한 태그 테이블의 예입니다.

태그 용어
방향 동부
방향 West
방향 North
방향 남부

다른 태그를 사용하여 주소에서 "번지"의 개념을 나타내는 다른 단어를 그룹화할 수 있습니다.

태그 용어
번지 번지
번지 거리
번지 위치
번지

이 태그 조합에 따라 거리 주소의 결과 패턴은 다음 패턴과 유사할 수 있습니다.

\d+\ LookupTag=Direction \d+\p{L}+\ LookupTag=Street

참고 항목

태그 테이블을 사용하면 데이터 프로파일링 태스크의 성능이 저하됩니다. 태그당 10개 이상의 태그 또는 100개 이상의 용어를 사용하지 마세요.

동일한 용어가 둘 이상의 태그에 속할 수 있습니다.

속성 요청 옵션

열 패턴 프로필 요청에 대해 요청 속성 창에는 다음 옵션 그룹이 표시됩니다.

  • TableOrView 옵션을 포함하는 데이터

  • 일반

  • 옵션

데이터 옵션

ConnectionManager
SQL Server용 .NET 데이터 공급자(SqlClient)를 사용하여 프로파일링할 테이블이나 보기가 포함된 SQL Server 데이터베이스에 연결하는 기존 ADO.NET 연결 관리자를 선택합니다.

TableOrView
프로파일링할 열이 포함된 기존 테이블이나 뷰를 선택합니다.

자세한 내용은 이 항목의 후반부에 있는 "TableorView 옵션" 섹션을 참조하세요.


프로파일링할 기존 열을 선택합니다. 모든 열을 프로파일링하려면 (*)를 선택합니다.

자세한 내용은 이 항목의 "열 옵션" 섹션을 참조하십시오.

TableOrView 옵션

스키마
선택한 테이블이 속한 스키마를 지정합니다. 이 옵션은 읽기 전용입니다.

테이블
선택한 데이터베이스의 이름을 표시합니다. 이 옵션은 읽기 전용입니다.

열 옵션

IsWildCard
(*) 와일드카드가 선택되었는지 여부를 지정합니다. 이 옵션은 모든 열을 프로파일링하도록 (*)를 선택한 경우 True로 설정됩니다. 프로파일링할 개별 열을 선택한 경우 False입니다. 이 옵션은 읽기 전용입니다.

ColumnName
선택한 열의 이름을 표시합니다. 이 옵션은 모든 열을 프로파일링하도록 (*)를 선택한 경우 비어 있습니다. 이 옵션은 읽기 전용입니다.

StringCompareOptions
이 옵션은 열 패턴 프로필에 적용되지 않습니다.

일반 옵션

RequestID
설명이 포함된 이름을 입력하여 이 프로필 요청을 식별합니다. 일반적으로 자동 생성된 값을 변경할 필요가 없습니다.

옵션

MaxNumberOfPatterns
프로필을 계산하려는 최대 패턴 수를 지정합니다. 이 옵션의 기본값은 10입니다. 최대값은 100입니다.

PercentageDataCoverageDesired
계산된 패턴에 포괄할 데이터의 비율을 지정합니다. 이 옵션의 기본값은 95%입니다.

CaseSensitive
패턴이 대/소문자를 구분해야 하는지 여부를 나타냅니다. 이 옵션의 기본값은 False입니다.

Delimiters
텍스트를 토큰화할 때 단어 사이의 공백에 해당하는 문자로 처리해야 하는 문자를 나열합니다. 기본적으로 구분 기호 목록에는 공백, 가로 탭(\t), 새 줄(\n) 및 캐리지 리턴(\r)과 같은 문자를 포함합니다. 추가 구분 기호를 지정할 수 있지만 기본 구분 기호는 제거할 수 없습니다.

자세한 내용은 이 항목의 앞 부분에 있는 "구분 기호 및 기호 사용 이해"를 참조하세요.

Symbols
패턴의 일부로 보존해야 하는 기호를 나열합니다. 예를 들어 날짜의 경우 "/", 시간에 대한 ":" 및 전자 메일 주소의 경우 "@"를 포함할 수 있습니다. 기본적으로 기호 목록에는 ,.;:-"'~=&/@!?()<>[]{}|#*^% 문자가 포함됩니다.

자세한 내용은 이 항목의 앞 부분에 있는 "구분 기호 및 기호 사용 이해"를 참조하세요.

TagTableConnectionManager
.NET Data Provider for SQL Server(SqlClient)를 사용하여 태그 테이블이 포함된 SQL Server 데이터베이스에 연결하는 기존 ADO.NET 연결 관리자를 선택합니다.

자세한 내용은 이 항목의 앞 부분에 있는 "태그 테이블 사용 이해"를 참조하세요.

TagTableName
태그와 용어라는 두 개의 문자열 열이 있어야 하는 기존 태그 테이블을 선택합니다.

자세한 내용은 이 항목의 앞 부분에 있는 "태그 테이블 사용 이해"를 참조하세요.

참고 항목

데이터 프로파일링 태스크 편집기(일반 페이지)
단일 테이블 빠른 프로필 형식(데이터 프로파일링 태스크)