유사 항목 그룹화 변환

아티클
12/15/2008

업데이트: 2005년 12월 5일

유사 항목 그룹화 변환에서는 중복되기 쉬운 데이터 행을 식별하고 데이터 표준화에 사용할 데이터의 중복 행을 선택하여 데이터 정리 작업을 수행합니다. 변환에는 변환 알고리즘이 작업을 수행하는 데 필요한 임시 SQL Server 테이블을 만들기 위해 SQL Server 2005 인스턴스에 대한 연결이 필요합니다. 연결은 데이터베이스에 테이블을 만드는 권한을 가진 사용자로 확인되어야 합니다.

변환을 구성하려면 중복을 식별하는 데 사용할 입력 열을 선택하고 각 열에 대해 일치 유형으로 유사 항목 일치 또는 정확한 일치를 선택해야 합니다. 정확한 일치를 사용하면 해당 열에 동일한 값을 가진 행만 그룹화됩니다. DT_TEXT, DT_NTEXT 및 DT_IMAGE를 제외한 모든 Integration Services 데이터 형식의 열에 정확한 일치를 적용할 수 있습니다. 유사 항목 일치는 비슷한 값을 가진 행을 그룹화합니다. 데이터의 근사 일치 방식은 사용자 정의 유사성 점수에 기반합니다. DT_WSTR 및 DT_STR 데이터 형식을 가진 열만 유사 항목 일치에서 사용할 수 있습니다. 자세한 내용은 Integration Services 데이터 형식을 참조하십시오.

변환 출력에는 모든 입력 열, 표준화된 데이터를 가진 한 개 이상의 열 및 유사성 점수를 가진 열이 포함됩니다. 점수는 0과 1 사이의 10진수 값입니다. 정식 행의 점수는 1이며 유사 항목 그룹 내 다른 행의 점수는 정식 행과 일치하는 정도를 나타냅니다. 정식 행과 더 비슷하게 일치할수록 점수가 1에 가까워집니다. 유사 항목 그룹에 정식 행과 정확하게 중복되는 행이 포함된 경우 해당 행의 점수는 1입니다. 변환에서는 중복 행을 제거하지 않고 정식 행과 비슷한 행을 연결하는 키를 만들어 그룹화합니다.

변환에서는 각 입력 열당 다음 추가 열을 포함하여 한 개의 출력 행을 생성합니다.

각 행을 고유하게 식별하는 _key_in 열
중복 행의 그룹을 식별하는 _key_out 열. _key_out 열은 정식 데이터 행에 _key_in 열 값을 가집니다. _key_out에 동일한 값을 가진 행은 동일한 그룹의 일부입니다. 그룹의 _key_out 값은 정식 데이터 행의 _key_in 값에 해당합니다.
_score는 입력 행 및 정식 행 간의 유사성을 나타내는 0과 1 사이의 값입니다.

이것은 기본 열 이름이며 다른 이름을 사용하도록 유사 항목 그룹화 변환을 구성할 수 있습니다. 출력에서는 유사 항목 그룹화에 참여하는 각 열에 유사성 점수를 제공합니다.

유사 항목 그룹화 변환에는 수행할 그룹화를 사용자 지정하는 두 가지 기능인 토큰 구분 기호 및 유사성 임계값이 포함됩니다. 변환에서는 데이터를 토큰화하는 기본 구분 기호 집합을 제공하지만 새 구분 기호를 추가하여 데이터 토큰화 정도를 향상시킬 수 있습니다.

유사성 임계값은 변환에서 얼마나 엄격하게 중복을 식별하는지를 지정합니다. 유사성 임계값은 구성 요소 및 열 수준에서 설정할 수 있습니다. 열 수준 유사성 임계값은 유사 항목 일치를 수행하는 열에서만 사용할 수 있습니다. 유사성 범위는 0에서 1 사이입니다. 임계값이 1에 가까울수록 행이 비슷한 것이며 열이 중복으로 적용되어야 합니다. 구성 요소 및 열 수준에서 MinSimilarity 속성을 설정하여 행 및 열 사이의 유사성 임계값을 지정하십시오. 구성 요소 수준에서 지정된 유사성을 만족하려면 모든 행이 모든 열에 걸쳐 구성 요소 수준에서 지정된 유사성 임계값 보다 크거나 같은 유사성을 가져야 합니다.

유사 항목 그룹화 변환에서는 유사성 내부 측정값을 계산하고 MinSimilarity에 지정된 값 보다 덜 비슷한 행을 그룹화에서 제외시킵니다.

다른 최소 유사성 임계값을 사용하고 유사 항목 그룹화 변환을 여러 번 적용하여 데이터에 사용 중인 유사성 임계값을 확인할 수 있습니다. 변환 출력의 점수 열은 런타임에 그룹 내 각 행에 대한 유사성 점수를 포함합니다. 사용자의 데이터에 적절한 유사성 임계값을 알아내는 데 이 값을 사용할 수 있습니다. 유사성을 높이려면 점수 열의 값 보다 큰 값으로 MinSimilarity을 설정해야 합니다.

유사 항목 그룹화 변환 입력에 열 속성을 설정하여 변환에서 수행하는 그룹화를 사용자 지정할 수 있습니다. 예를 들어 FuzzyComparisonFlags 속성은 변환에서 열에 문자열 데이터를 비교하는 방법을 지정하며 ExactFuzzy 속성은 변환에서 유사 항목 일치를 수행하는지 또는 정확한 일치를 수행하는지를 지정합니다.

유사 항목 그룹화 변환에서 사용하는 메모리 양은 MaxMemoryUsage 사용자 지정 속성을 설정하여 구성할 수 있습니다. 크기(MB)를 지정하거나 값 0을 사용하여 변환에서 요구 사항 및 사용 가능한 실제 메모리를 기반으로 메모리를 동적으로 사용하도록 할 수 있습니다. MaxMemoryUsage 사용자 지정 속성은 패키지 로드 시 속성 식을 사용하여 업데이트할 수 있습니다. 자세한 내용은 Integration Services 식 참조, 패키지에서 속성 식 사용 및 Transformation Custom Properties을 참조하십시오.

이 변환은 하나의 입력과 하나의 출력을 가지며 오류 출력은 지원하지 않습니다.

행 비교

유사 항목 그룹화 변환을 구성하는 경우 변환에서 변환 입력 내의 행을 비교하는 데 사용할 비교 알고리즘을 지정할 수 있습니다. Exhaustive 속성을 true로 설정하면 변환에서는 입력의 모든 각 행을 입력의 다른 행과 비교합니다. 이 비교 알고리즘을 사용하면 더 정확한 결과를 얻을 수 있지만 입력 행의 수가 많으면 변환 성능이 느려집니다. 성능 문제를 방지하려면 패키지 개발 시에만 Exhaustive 속성을 true로 설정하는 것이 좋습니다.

임시 테이블 및 인덱스

유사 항목 그룹화 변환에서는 런타임에 변환에서 연결하는 SQL Server 2005 데이터베이스에 테이블 및 인덱스와 같은 크기가 큰 임시 개체를 만듭니다. 테이블 및 인덱스의 크기는 변환 입력 내 행의 수 및 유사 항목 그룹화 변환에서 만든 토큰의 수에 비례합니다.

변환은 또한 임시 테이블을 쿼리합니다. 따라서 프로덕션 서버에 사용 가능한 디스크 공간이 제한되는 경우 프로덕션 SQL Server가 아닌 인스턴스로 유사 항목 그룹화 변환을 연결해야 합니다.

변환에서 사용하는 테이블 및 인덱스가 로컬 컴퓨터에 있는 경우 변환의 성능이 향상될 수 있습니다.