용어 조회 변환
용어 조회 변환은 변환 입력 열의 텍스트에서 추출된 용어와 참조 테이블에 있는 용어가 일치하는지 확인합니다. 그런 다음 조회 테이블의 용어가 입력 데이터 집합에서 발생한 횟수를 계산하고 해당 개수를 참조 테이블의 용어와 함께 변환 출력의 열에 기록합니다. 이러한 변환은 입력 텍스트를 기준으로 단어 빈도 통계가 모두 포함된 사용자 지정 단어 목록을 만들 때 유용합니다.
용어 조회 변환은 조회를 수행하기 전에 용어 추출 변환과 동일한 다음과 같은 방식을 사용하여 입력 열의 텍스트에서 단어를 추출합니다.
- 텍스트를 여러 문장으로 구분합니다.
- 문장을 여러 단어로 구분합니다.
- 단어를 기본 형태로 변환합니다.
용어 조회 변환에서 대/소문자를 구분하여 일치하는 용어를 검색할 수 있도록 구성하여 용어 검색 방법의 사용자 지정 수위를 높일 수 있습니다.
용어 조회에서는 조회를 수행하고 다음 규칙에 따라 값을 반환합니다.
대/소문자 구분 검색을 수행하도록 변환이 구성된 경우 대/소문자가 다른 일치 항목은 무시됩니다. 예를 들어 student와 STUDENT는 별개의 단어로 취급됩니다.
[!참고] 소문자로 표기된 단어는 문장 처음에 대문자로 표시된 단어와 일치합니다. 예를 들어 Student가 문장의 첫 단어인 경우 student와 Student는 일치하는 단어로 검색됩니다.
명사 또는 명사구의 복수 형태가 참조 테이블에 있는 경우 조회에서는 명사 또는 명사구의 복수 형태만 검색합니다. 예를 들어 모든 students는 student와 별개로 카운트됩니다.
참조 테이블에 단어의 단수 형태만 있는 경우 단어 또는 구의 단수 및 복수 형태는 모두 단수 형태로 검색됩니다. 예를 들어 조회 테이블에 student가 있는 경우 변환에서는 student와 students가 검색되며, 두 단어 모두 조회 용어 student에 일치하는 단어로 카운트됩니다.
입력 열의 텍스트가 분류된 명사구인 경우 명사구의 마지막 단어만 기본 형태로 변환됩니다. 예를 들어 doctors appointments의 분류된 형태는 doctors appointment입니다.
하위 용어가 둘 이상의 참조 레코드에 있는 경우처럼 참조 집합에서 겹치는 용어가 조회 항목에 포함되어 있을 때는 용어 조회 변환에서 하나의 조회 결과만 반환됩니다. 다음 예에서는 겹치는 하위 용어가 조회 항목에 포함되어 있는 때의 결과를 보여 줍니다. 이 경우 겹치는 하위 용어는 Windows이며 두 개의 참조 용어에 들어 있습니다. 그러나 변환에서는 두 개의 결과를 반환하지 않고 Microsoft Windows라는 하나의 참조 용어만 반환합니다. 두 번째 참조 용어인 Windows XP Home Edition SP1은 반환되지 않습니다.
항목 | 값 |
---|---|
입력 용어 |
Microsoft Windows XP Home Edition SP |
참조 용어 |
Microsoft Windows, Windows XP Home Edition SP1 |
출력 |
Microsoft Windows |
용어 조회 변환에서는 특수 문자가 포함된 명사 및 명사구를 검색할 수 있으며 참조 테이블의 데이터에는 이러한 문자가 포함될 수 있습니다. 이러한 특수 문자에는 %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, 및 ‘이 있습니다.
용어 조회 변환에서는 데이터 형식이 DT_WSTR 또는 DT_NTEXT인 열만 사용할 수 있습니다. 열에 텍스트가 있지만 데이터 형식이 다른 경우 데이터 변환으로 데이터 흐름에 DT_WSTR 또는 DT_NTEXT 데이터 형식의 열을 추가하고 열 값을 새 열로 복사할 수 있습니다. 그런 다음 데이터 변환의 출력을 용어 조회 변환에 대한 입력으로 사용할 수 있습니다. 자세한 내용은 데이터 변환을 참조하십시오.
용어 조회 변환 입력 열에는 열의 용도를 나타내는 InputColumnType 속성이 포함됩니다. InputColumnType에는 다음 값이 포함될 수 있습니다.
- 값 0은 열이 출력에만 전달되며 조회에서 사용되지 않음을 나타냅니다.
- 값 1은 열이 조회에서만 사용됨을 나타냅니다.
- 값 2는 열이 출력에 전달되고 조회에서도 사용됨을 나타냅니다.
InputColumnType 속성이 0이나 2로 설정된 변환 출력 열에는 업스트림 데이터 흐름 구성 요소에 의해 열에 할당된 계보 식별자를 포함하는 열에 대한 CustomLineageID 속성이 포함됩니다.
용어 조회 변환은 기본적으로 Term 및 Frequency로 명명된 두 개의 열을 변환 출력에 추가합니다. Term에는 조회 테이블의 용어가 포함되며 Frequency에는 참조 테이블의 용어가 입력 데이터 집합에 나오는 횟수가 포함됩니다. 이러한 열에는 CustomLineageID 속성이 포함되지 않습니다.
조회 테이블은 SQL Server 2000, SQL Server 2005 또는 Access 데이터베이스의 테이블이어야 합니다. 용어 추출 변환의 출력이 테이블에 저장되는 경우 이 테이블을 참조 테이블로 사용할 수 있지만 다른 테이블도 사용할 수 있습니다. 플랫 파일, Excel 통합 문서 또는 다른 원본에 있는 텍스트는 용어 조회 변환을 사용하기 전에 SQL Server 데이터베이스나 Access 데이터베이스로 가져와야 합니다.
용어 조회 변환은 별개의 OLE DB 연결을 사용하여 참조 테이블에 연결합니다. 자세한 내용은 OLE DB 연결 관리자를 참조하십시오.
용어 조회 변환은 완전히 사전 캐시된 모드에서 작동합니다. 용어 조회 변환은 런타임에 참조 테이블로부터 용어를 읽고 변환 입력 행을 처리하기 전에 이를 전용 메모리에 저장합니다.
입력 열 행의 용어는 반복될 수 있기 때문에 용어 조회 변환의 출력에는 일반적으로 변환 입력보다 많은 수의 행이 포함됩니다.
이 변환에는 하나의 입력과 하나의 출력이 있습니다. 오류 출력은 지원하지 않습니다.
용어 조회 변환 구성
SSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.
용어 조회 변환 편집기 대화 상자에서 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하십시오.
고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하십시오.
속성 설정 방법을 보려면 다음 항목 중 하나를 클릭하십시오.
- 방법: 구성 요소 편집기를 사용하여 데이터 흐름 구성 요소 속성 설정
- 방법: 속성 창에서 데이터 흐름 구성 요소의 속성 설정
- 방법: 고급 편집기를 사용하여 데이터 흐름 구성 요소의 속성 설정
참고 항목
개념
용어 추출 변환
조회 변환
유사 항목 조회 변환
패키지 데이터 흐름 만들기
Integration Services 변환