다음을 통해 공유


유사 항목 그룹화 변환을 사용하여 유사한 데이터 행 식별

적용 대상: SQL Server Azure Data Factory의 SSIS Integration Runtime

유사 항목 그룹화 변환을 추가 및 구성하려면 패키지에 적어도 하나 이상의 데이터 흐름 태스크 하나의 원본이 이미 들어 있어야 합니다.

데이터 흐름에서 유사 항목 그룹화 변환을 구현하는 방법

  1. SSDT(SQL Server Data Tools)에서 원하는 패키지가 들어 있는 Integration Services 프로젝트를 엽니다.

  2. 솔루션 탐색기에서 패키지를 두 번 클릭하여 엽니다.

  3. 데이터 흐름 탭을 클릭한 다음 도구 상자에서 유사 항목 그룹화 변환을 디자인 화면으로 끌어옵니다.

  4. 데이터 원본이나 이전 변환에서 커넥터를 유사 항목 그룹화 변환으로 끌어서 데이터 유사 항목 그룹화 변환을 데이터 흐름에 연결합니다.

  5. 유사 항목 그룹화 변환을 두 번 클릭합니다.

  6. 유사 항목 그룹화 변환 편집기 대화 상자의 연결 관리자 탭에서 SQL Server 데이터베이스에 연결할 OLE DB 연결 관리자를 선택합니다.

    참고 항목

    변환을 수행하려면 임시 테이블 및 인덱스를 만들기 위해 SQL Server 데이터베이스에 연결해야 합니다.

  7. Columns 탭을 클릭하고 데이터 세트에서 유사한 행을 식별하는 데 사용할 입력 열의 확인란을 사용 가능한 입력 열 목록에서 선택합니다.

  8. Pass Through 열에서 확인란을 선택하여 변환 출력으로 전달할 입력 열을 식별합니다. 통과 열은 중복 행 식별 프로세스에 포함되지 않습니다.

    참고 항목

    그룹화에 사용되는 입력 열은 자동으로 통과 열로 선택되며 그룹화에 사용되는 동안에는 선택을 취소할 수 없습니다.

  9. 필요에 따라 출력 별칭 열 목록에서 출력 열의 이름을 업데이트할 수 있습니다.

  10. 선택적으로 Group OutputAlias 열에서 정리된 열의 이름을 업데이트합니다.

    참고 항목

    열의 기본 이름은 "_clean" 접미사가 있는 입력 열의 이름입니다.

  11. 선택적으로 Match Type 열에서 사용할 일치 유형을 업데이트합니다.

    참고 항목

    하나 이상의 열에서 유사 일치를 사용해야 합니다.

  12. Minimum Similarity 열에서 최소 유사성 수준 열을 지정합니다. 값은 0에서 1 사이여야 합니다. 값이 1에 가까울수록 입력 열의 값이 더 유사한 것이기에 그룹을 만들어야 합니다. 최소 유사성이 1이면 정확한 일치를 나타냅니다.

  13. 선택적으로 Similarity Output Alias 열에서 유사성 열의 이름을 업데이트합니다.

  14. 데이터 값의 숫자 처리를 지정하려면 Numerals 열의 값을 업데이트합니다.

  15. 변환이 열의 문자열 데이터를 비교하는 방법을 지정하려면 Comparison Flags 열에서 기본 비교 옵션 선택을 수정합니다.

  16. 고급 탭을 클릭하여 변환에서 고유한 행 식별자(_key_in), 중복 행 식별자(_key_out), 유사성 값(_score)에 대한 출력에 추가하는 열의 이름을 수정합니다.

  17. 선택적으로 슬라이더 막대를 이동하여 유사성 임계값을 조정합니다.

  18. 선택적으로 토큰 구분 기호 확인란의 선택을 취소하여 데이터의 구분 기호를 무시합니다.

  19. 확인을 클릭합니다.

  20. 업데이트된 패키지를 저장하려면 파일 메뉴에서 선택한 항목 저장을 클릭합니다.

참고 항목

유사 항목 그룹화를 변환
Integration Services 변환
Integration Services 경로
데이터 흐름 태스크