다음을 통해 공유


데이터 품질

데이터 품질은 클라우드 규모 분석의 관리 기능입니다. 데이터 관리 랜딩 존에 상주하며 거버넌스의 핵심 부분입니다.

데이터 품질 고려 사항

데이터 품질은 데이터 제품을 만들고 사용하는 모든 개인의 책임입니다. 작성자는 전역 및 도메인 규칙을 준수해야 하며 소비자는 피드백 루프를 통해 소유하고 있는 데이터 도메인에 데이터 불일치를 보고해야 합니다.

데이터 품질은 경영진에 제공된 모든 데이터에 영향을 주므로 조직의 맨 위에서 시작해야 합니다. 경영진은 제공된 데이터 품질에 대한 인사이트를 가져야 합니다.

그러나 사전 대응을 위해서는 수정이 필요한 데이터 버킷을 정리할 수 있는 데이터 품질 전문가가 있어야 합니다. 이 작업을 중앙 팀에 푸시하지 말고 특정 데이터 지식이 있는 데이터 도메인을 대상으로 지정하여 데이터를 정리합니다.

데이터 품질 메트릭

데이터 품질 메트릭은 데이터 제품의 품질을 평가하고 높이기 위한 핵심입니다. 전역 및 도메인 수준에서 품질 메트릭을 결정해야 합니다. 최소한 다음 메트릭을 사용하는 것이 좋습니다.

메트릭 메트릭 정의
완전성 = null이 아닌 총 비율 + 비 공백 데이터 가용성, 비어 있지 않은 데이터 세트의 필드, 변경된 기본값을 측정합니다. 예를 들어 레코드에 출생 데이터로 1900/01/01이 포함된 경우 필드가 채워지지 않았을 가능성이 높습니다.
고유성 = 중복되지 않은 값의 비율 테이블의 행 수와 비교하여 지정된 열의 고유 값을 측정합니다. 예를 들어 5개의 행이 있는 테이블에서 네 가지 고유 색 값(빨강, 파랑, 노랑 및 녹색)이 지정된 경우 해당 필드는 80%(또는 4/5)입니다.
일관성 = 패턴이 있는 데이터의 비율 지정된 열 내의 규정 준수를 예상 데이터 형식 또는 구성 방식으로 측정합니다. 예를 들어 서식이 지정된 메일 주소가 포함된 메일 필드 또는 숫자 값이 있는 이름 필드가 있습니다.
유효성 = 일치하는 참조 비율 도메인 참조 집합과 일치하는 성공적인 데이터를 측정합니다. 예를 들어 트랜잭션 레코드 시스템의 국가/지역 필드(분류 값 준수)가 있는 경우 "US of A" 값은 유효하지 않습니다.
정확도= 변경되지 않은 값의 비율 여러 시스템에서 의도한 값의 재현에 성공했는지 측정합니다. 예를 들어 청구서에 원래 주문과 다른 SKU 및 확장 가격을 항목별로 지정하는 경우 청구서 품목이 부정확합니다.
링크 = 잘 통합된 데이터의 비율 다른 시스템의 도우미 참조 세부 정보에 대한 연결 성공을 측정합니다. 예를 들어 청구서에 잘못된 SKU 또는 제품 설명이 항목별로 표시되면 청구서 품목을 연결할 수 없습니다.

데이터 프로파일링

데이터 프로파일링은 데이터 카탈로그에서 등록되는 데이터 제품을 검사하고 해당 데이터에 대한 통계와 정보를 수집합니다. 시간에 따른 데이터 품질 요약 및 추세 보기를 제공하려면 데이터 제품의 메타데이터 리포지토리에 이 데이터를 저장합니다.

데이터 프로필을 통해 사용자는 다음을 비롯한 데이터 제품에 대한 질문에 답변할 수 있습니다.

  • 비즈니스 문제를 해결하는 데 사용할 수 있나요?
  • 데이터가 특정 표준 또는 패턴을 확인하나요?
  • 일부 데이터 원본에서 비정상은 무엇인가요?
  • 내 애플리케이션에 이 데이터를 통합할 경우 발생할 수 있는 문제는 무엇인가요?

사용자는 데이터 마켓플레이스 내에서 보고 대시보드를 사용하여 데이터 제품 프로필을 볼 수 있습니다.

다음과 같은 항목에 대해 보고할 수 있습니다.

  • 완전성: 비어 있지 않거나 null이 아닌 데이터의 비율을 나타냅니다.
  • 고유성: 중복되지 않은 데이터의 비율을 나타냅니다.
  • 일관성: 데이터 무결성이 유지되는 데이터를 나타냅니다.

데이터 품질 권장 사항

데이터 품질을 구현하려면 다음과 같이 사용자 및 계산 능력을 모두 사용해야 합니다.

  • 알고리즘, 규칙, 데이터 프로파일링, 메트릭을 포함하는 솔루션을 사용합니다.

  • 컴퓨팅 계층을 통과하는 많은 오류로 인해 알고리즘을 학습해야 하는 요구 사항이 있을 때 개입할 수 있는 도메인 전문가를 사용합니다.

  • 초기 유효성을 검사합니다. 기존의 솔루션은 데이터 품질이 적용되기 전에 데이터를 추출, 변환, 로드했습니다. 이때까지 데이터 제품이 이미 사용되고 있으며 다운스트림 데이터 제품에 오류가 표시됩니다. 대신 원본에서 데이터를 수집할 때 원본 근처와 다운스트림 소비자가 데이터 제품을 사용하기 전에 데이터 품질 검사를 구현합니다. 데이터 레이크에서 일괄 수집이 있는 경우 원시 데이터에서 보강 데이터로 데이터를 이동할 때 이러한 확인을 수행합니다.

    수집하는 동안 데이터 품질을 구현하는 방법에 대한 다이어그램

  • 데이터가 보강된 계층으로 이동되기 전에 데이터 카탈로그에 등록된 메타데이터에 대해 해당 스키마 및 열이 확인됩니다.

  • 데이터에 오류가 포함된 경우 로드가 중지되고 데이터 애플리케이션 팀에서 오류를 통보합니다.

  • 스키마 및 열 검사를 통과하면 데이터가 일치하는 데이터 형식을 사용하여 보강된 계층에 로드됩니다.

  • 보강 계층으로 이동하기 전에 데이터 품질 프로세스는 알고리즘 및 규칙에 대한 규정 준수를 확인합니다.

전역 및 도메인 수준에서 데이터 품질 규칙을 정의합니다. 이렇게 하면 비즈니스에서 생성된 모든 데이터 제품에 대한 표준을 정의할 수 있으며 데이터 도메인이 해당 도메인과 관련된 추가 규칙을 만들 수 있습니다.

데이터 품질 솔루션

2022년 2월 현재 Microsoft는 데이터 품질 솔루션을 제공하기 위해 파트너, 오픈 소스 솔루션, 사용자 지정 솔루션을 사용합니다. Informatica, Talend, CluedIn, Ataccama One과 같은 파트너를 평가하는 것이 좋습니다.

오픈 소스 솔루션의 경우 기업은 데이터 파이프라인에 Great Expectations 도구를 구현했습니다.

데이터 품질 요약

데이터 품질을 수정하면 비즈니스에 심각한 영향을 미칠 수 있습니다. 이를 통해 사업부는 다양한 방식으로 데이터 제품을 해석할 수 있습니다. 이러한 잘못된 해석은 데이터 품질이 낮은 데이터 제품을 기반으로 하여 비즈니스 기반 의사 결정에 많은 비용이 소요될 수 있습니다. 특성이 누락된 데이터 제품을 수정하는 작업은 비용이 많이 들 수 있으며 기간 수에서 데이터를 완전히 다시 로드해야 할 수 있습니다.

데이터 품질의 유효성을 조기에 검사하고 잘못된 데이터 품질을 사전에 해결할 프로세스를 마련합니다. 예를 들어 일정량의 완전성을 달성할 때까지는 데이터 제품을 프로덕션으로 릴리스할 수 없습니다.

도구는 무료로 사용할 수 있지만, 전역 및 도메인 기반 기대치를 구현할 수 있도록 기대치(규칙), 데이터 메트릭, 프로파일링 및 기대치를 보호하는 기능이 포함되어 있는지 확인합니다.

다음 단계