데이터 일치

적용 대상:SQL Server

DQS(Data Quality Services) 데이터 일치 프로세스를 사용하면 데이터 중복을 줄이고 데이터 원본의 데이터 정확도를 향상시킬 수 있습니다. 일치는 단일 데이터 원본의 모든 레코드에서 중복 수준을 분석하고 각 비교 대상 레코드 집합 간 일치 항목에 대한 가중 확률을 반환합니다. 그런 다음 일치하는 레코드를 결정하고 원본 데이터에 대해 적절한 조치를 취할 수 있습니다.

DQS 일치 프로세스에는 다음과 같은 이점이 있습니다.

  • 일치를 사용하면 같아야 하는 데이터 값 간의 차이를 제거하고 올바른 값을 결정하고 데이터 차이로 인해 발생할 수 있는 오류를 줄일 수 있습니다. 예를 들어 이름 및 주소는 데이터 원본, 특히 고객 데이터에 대한 식별 데이터인 경우가 많지만 시간이 지남에 따라 데이터가 더러워지고 악화될 수 있습니다. 일치를 수행하여 이러한 오류를 식별하고 수정하면 데이터 사용 및 유지 관리가 훨씬 쉬워질 수 있습니다.

  • 일치를 통해 동등한 값이 다른 형식이나 스타일로 입력되었는지 확인하여 동등하게 만들 수 있습니다.

  • 일치는 정확하고 근사한 일치 항목을 식별하여 정의할 때 중복 데이터를 제거할 수 있도록 합니다. 대략적인 일치 항목이 실제로 일치하는 지점을 정의합니다. 일치를 위해 평가되는 필드와 일치하지 않는 필드를 정의합니다.

  • DQS를 사용하면 컴퓨터 지원 프로세스를 사용하여 일치 정책을 만들고, 일치하는 결과에 따라 대화형으로 수정하고, 다시 사용할 수 있는 기술 자료에 추가할 수 있습니다.

  • 일치 정책 및 원본 데이터의 상태에 따라 원본에서 준비 테이블로 복사된 데이터의 인덱스를 다시 만들거나 만들지 않을 수 있습니다. 다시 인덱싱하지 않으면 성능이 향상될 수 있습니다.

일치 프로세스와 다른 데이터 정리 프로세스를 함께 수행하여 전반적인 데이터 품질을 개선할 수 있습니다. Master Data Services에 기본 제공되는 DQS 기능을 사용하여 데이터 중복 제거를 수행할 수도 있습니다. 자세한 내용은 MDS(Master Data Services 개요)를 참조하세요.

다음 그림은 DQS에서 데이터 일치를 수행하는 방법을 보여 줍니다.

Matching Process in DQS

데이터 일치를 수행하는 방법

DQS의 다른 데이터 품질 프로세스와 마찬가지로 다음 단계에 따라 기술 자료를 구축하고 데이터 품질 프로젝트의 일치 작업을 실행하여 일치를 수행하세요.

  1. 기술 자료에서 일치하는 정책 만들기

  2. 데이터 품질 프로젝트의 일부인 일치 작업에서 중복 제거 프로세스를 수행합니다.

일치 정책 빌드

기술 자료에 DQS가 일치 확률을 할당하는 방법을 정의한 일치 정책을 만들어 일치 수행을 위해 기술 자료를 준비해야 합니다. 일치 정책은 DQS에서 레코드가 서로 얼마나 일치하는지 평가할 때 사용될 도메인을 식별하고, 일치 평가에서 각 도메인 값이 가지는 가중치를 지정하는 하나 이상의 일치 규칙으로 구성됩니다. 규칙에서 도메인 값이 정확히 일치해야 하는지 아니면 유사할 수 있는지 여부와 유사성을 지정합니다. 또한 도메인 일치가 필수 구성 요소인지 여부를 지정합니다.

기술 자료 관리 마법사의 일치 정책 작업은 각 일치 규칙을 적용하여 샘플 데이터를 분석함으로써 레코드 범위 전체에서 한 번에 두 레코드를 비교합니다. 일치하는 점수가 지정된 최소값보다 큰 레코드는 일치하는 결과의 클러스터에서 그룹화됩니다. 이러한 일치 결과는 기술 자료에 추가되지 않습니다. 일치 규칙을 조정하는 데 사용합니다. 일치 정책을 만드는 작업은 일치 결과 또는 프로파일링 통계에 따라 일치 규칙을 수정하는 반복 프로세스일 수 있습니다.

데이터 원본에서 도메인으로 데이터를 로드할 때 데이터 문자열이 정규화되도록 도메인에 지정할 수 있습니다. 이 프로세스는 특수 문자를 null 또는 공백으로 바꿔 두 문자열 간의 차이를 제거하는 것으로 구성됩니다. 따라서 일치 정확도가 높아지고, 일치 결과가 정규화하기 전에는 최소 일치 임계값을 통과하지 못한 경우에도 최소 일치 임계값을 초과하게 되는 경우가 많습니다.

참고 항목

두 레코드의 해당 필드에 있는 Null 값은 일치 항목으로 간주됩니다.

일치 정책은 샘플 데이터에 매핑된 도메인에 대해 실행됩니다. 데이터 원본에서 준비 테이블로 데이터를 복사하고 일치하는 정책을 실행할 때 다시 인덱싱할지 여부를 지정할 수 있습니다. 기술 자료를 빌드할 때와 일치하는 프로젝트를 실행할 때 모두 수행할 수 있습니다. 다시 인덱싱하지 않으면 성능이 향상될 수 있습니다. 일치 정책이 변경되지 않았고 데이터 원본을 업데이트하지 않았거나, 정책을 다시 매핑하거나, 새 데이터 원본을 선택하거나, 하나 이상의 새 도메인을 매핑하지 않은 경우 다시 인덱싱이 필요하지 않습니다.

일치하는 각 규칙은 만들 때 기술 자료에 저장됩니다. 그러나 기술 자료는 게시된 경우에만 데이터 품질 프로젝트에서 사용할 수 있습니다. 또한 기술 자료가 게시될 때까지 해당 기술 자료의 일치 규칙을 만든 사용자가 아닌 다른 사용자가 변경할 수 없습니다.

일치하는 프로젝트 실행

DQS는 원본 데이터의 각 행을 다른 모든 행과 비교하고, 기술 자료에 정의된 일치 정책을 사용하고, 행이 일치할 확률을 생성하여 데이터 중복 제거를 수행합니다. 이러한 작업은 일치 유형의 데이터 품질 프로젝트에서 수행됩니다. 일치는 데이터 품질 프로젝트의 주요 단계 중 하나입니다. 일치시킬 데이터가 오류로부터 자유로워지도록 데이터 정리 후 가장 잘 수행됩니다. 일치 프로세스를 실행하기 전에 정리 프로젝트의 결과를 데이터 테이블 또는 .csv 파일로 내보낸 다음 일치 프로젝트를 만들어 일치 프로젝트의 도메인에 정리 결과를 매핑할 수 있습니다.

데이터 일치 프로젝트는 컴퓨터 지원 프로세스와 대화형 프로세스로 구성됩니다. 일치하는 프로젝트는 평가할 데이터 원본에 일치 정책의 일치 규칙을 적용합니다. 이 프로세스는 일치하는 점수에서 두 행이 일치할 가능성을 평가합니다. 일치 정책에서 데이터 관리자가 설정한 값보다 일치하는 확률이 높은 레코드만 일치 항목으로 간주됩니다.

DQS는 일치 분석을 수행할 때 DQS에서 일치 항목으로 간주한 레코드의 클러스터를 만듭니다. DQS는 각 클러스터의 레코드 중 하나를 피벗 또는 선행 레코드로 임의로 식별합니다. 데이터 관리자는 일치 결과를 확인하고 특정 클러스터의 적절한 일치 항목이 아닌 레코드를 거부합니다. 그런 다음 데이터 관리자는 DQS가 일치 프로세스에서 살아남을 레코드를 결정하고 일치하는 레코드를 대체하는 데 사용할 Survivorship 규칙을 선택합니다. survivorship 규칙은 "피벗 레코드"(기본값), "가장 완전하고 가장 긴 레코드", "가장 완전한 레코드" 또는 "가장 긴 레코드"일 수 있습니다. DQS는 생존자 규칙의 기준 또는 기준과 가장 일치하는 레코드를 기준으로 각 클러스터의 생존자(선행) 레코드를 결정합니다. 지정된 클러스터의 여러 레코드가 survivorship 규칙을 준수하는 경우 DQS는 해당 레코드 중 하나를 임의로 선택합니다. DQS를 사용하면 "겹치지 않는 클러스터 표시"를 선택하여 공통 레코드가 있는 클러스터를 단일 클러스터로 표시할 수 있습니다. 이 설정에 따라 결과를 표시하려면 일치 프로세스를 실행해야 합니다.

일치하는 프로세스의 결과를 SQL Server 테이블 또는 .csv 파일로 내보낼 수 있습니다. 일치 결과는 두 가지 형식으로 내보낼 수 있습니다. 하나는 일치하는 레코드와 일치하지 않는 레코드이고, 다른 하나는 특정 클러스터의 Survivor 레코드만 포함된 Survivorship 레코드와 일치하지 않는 결과입니다. Survivorship 레코드에서 동일한 레코드가 여러 클러스터의 생존자로 식별되는 경우 해당 레코드는 한 번만 내보내집니다.

이 섹션의 내용

DQS에서 일치와 관련된 다음 태스크를 수행할 수 있습니다.

태스크 설명 토픽
일치 정책의 일치 규칙 만들기 및 테스트 일치 정책 만들기
데이터 품질 프로젝트에서 일치 실행 일치하는 프로젝트 실행