데이터 및 AI 거버넌스 모범 사례

아티클
06/14/2024

이 문서에서는 다음 섹션에 나열된 아키텍처 원칙에 따라 구성된 데이터 및 AI 거버넌스의 모범 사례를 설명합니다.

1. 데이터 및 AI 관리 통합

데이터 및 AI 거버넌스 프로세스 설정

데이터 및 AI 거버넌스는 조직의 데이터 및 AI 자산의 가용성, 유용성, 무결성 및 보안을 관리하는 것입니다. 조직은 데이터 및 AI 거버넌스를 강화하여 정확한 분석 및 의사 결정에 중요한 자산의 품질을 보장하고, 새로운 기회를 식별하고, 고객 만족도를 높이고, 궁극적으로 수익을 높일 수 있습니다. 이를 통해 조직은 데이터 및 AI 개인 정보 보호 규정을 준수하고 보안 조치를 개선하여 데이터 위반 및 처벌의 위험을 줄일 수 있습니다. 또한 효과적인 데이터 거버넌스는 중복성을 제거하고 데이터 관리를 간소화하여 비용을 절감하고 운영 효율성을 높입니다.

조직에서 가장 적합한 거버넌스 모델을 선택할 수 있습니다.

중앙 집중식 거버넌스 모델에서 거버넌스 관리자는 metastore의 소유자이며 모든 개체의 소유권을 가져와서 권한을 부여하고 취소할 수 있습니다.
분산 거버넌스 모델에서 카탈로그 또는 카탈로그 집합은 데이터 도메인입니다. 해당 카탈로그의 소유자는 모든 자산을 만들고 소유하고 해당 도메인 내에서 거버넌스를 관리할 수 있습니다. 지정된 도메인의 소유자는 다른 도메인의 소유자와 독립적으로 작동할 수 있습니다.

데이터 및 AI 거버넌스 솔루션 Unity 카탈로그 는 Databricks Data Intelligence 플랫폼에 통합됩니다. 두 거버넌스 모델을 모두 지원하며 모든 클라우드 또는 플랫폼에서 구조화되고 구조화되지 않은 데이터, ML 모델, Notebook, 대시보드 및 파일을 원활하게 관리하는 데 도움이 됩니다. Unity 카탈로그 모범 사례는 데이터 및 AI 거버넌스를 구현하는 데 도움이 됩니다.

한 곳에서 모든 데이터 및 AI 자산에 대한 메타데이터 관리

한 곳에서 모든 자산에 대한 메타데이터를 관리하는 이점은 모든 데이터에 대해 단일 원본을 유지 관리하는 이점과 유사합니다. 여기에는 데이터 중복성 감소, 데이터 무결성 향상, 다양한 정의 또는 분류로 인한 오해 제거가 포함됩니다. 또한 단일 원본으로 전역 정책, 표준 및 규칙을 구현하는 것이 더 쉽습니다.

모범 사례로, Unity 카탈로그를 사용하여 단일 계정으로 Lakehouse를 실행합니다. Unity 카탈로그는 기능 및 AI 모델과 같은 AI 자산뿐만 아니라 데이터 및 볼륨(임의 파일)을 관리할 수 있습니다. Unity 카탈로그에 있는 개체의 최상위 컨테이너는 메타스토어입니다. 데이터 자산(예: 테이블 및 뷰)과 해당 자산에 대한 액세스를 제어하는 권한을 저장합니다. 클라우드 지역당 단일 메타스토어를 사용하고 대기 시간 문제를 방지하기 위해 지역 간 메타스토어에 액세스하지 않습니다.

메타스토어는 데이터, 볼륨 및 AI 자산을 구조화하기 위한 3단계 네임스페이스를 제공합니다.

Databricks는 카탈로그를 사용하여 조직의 정보 아키텍처 간에 분리를 제공하는 것이 좋습니다. 이는 종종 카탈로그가 소프트웨어 개발 환경 범위, 팀 또는 사업부에 해당할 수 있음을 의미합니다.

데이터 및 AI 계보를 추적하여 데이터의 가시성 확보

데이터 계보는 데이터 리더가 조직의 데이터에 대한 가시성과 이해를 높이는 데 도움이 되는 강력한 도구입니다. 데이터 계보는 원본에서 인사이트로 데이터의 변환 및 구체화를 설명합니다. 여기에는 데이터 집합의 원본, 데이터 집합을 만드는 데 사용된 다른 데이터 집합, 생성한 사람, 수행된 변환, 다른 데이터 세트의 사용 및 기타 많은 이벤트 및 특성을 포함하여 수명 주기 동안 데이터와 연결된 모든 관련 메타데이터 및 이벤트 캡처가 포함됩니다.

또한 Unity 카탈로그의 테이블에서 모델을 학습할 때 모델의 계보를 학습 및 평가된 업스트림 데이터 세트로 추적할 수 있습니다.

계보는 여러 데이터 관련 사용 사례에 사용할 수 있습니다.

준수 및 감사 준비 상태: 데이터 계보를 사용하면 조직에서 테이블 및 필드의 원본을 추적할 수 있습니다. 이는 GDPR(일반 데이터 보호 규정), CCPA(캘리포니아 소비자 개인 정보 보호법), HIPAA(건강 보험 이식성 및 책임법), BCBS(바젤 은행 감독 위원회) 239 및 SOX(Sarbanes-Oxley Act)와 같은 많은 규정 준수 규정의 요구 사항을 충족하는 데 중요합니다.
영향 분석/변경 관리: 데이터는 원본에서 최종 비즈니스 준비 테이블로 여러 변환을 거칩니다. 데이터 변경이 다운스트림 사용자에게 미치는 잠재적 영향을 이해하는 것은 위험 관리 관점에서 중요합니다. 이 영향은 Unity 카탈로그에서 캡처한 데이터 계보를 사용하여 쉽게 확인할 수 있습니다.
데이터 품질 보증: 데이터 세트의 원본과 적용된 변환을 이해하면 데이터 과학자와 분석가에게 훨씬 더 나은 컨텍스트를 제공하여 더 정확하고 정확한 인사이트를 얻을 수 있습니다.
디버깅 및 진단: 예기치 않은 결과가 발생할 경우 데이터 계보는 데이터 팀이 오류를 원본으로 다시 추적하여 근본 원인 분석을 수행하는 데 도움이 됩니다. 이렇게 하면 문제 해결 시간이 크게 줄어듭니다.

Unity 카탈로그는 Azure Databricks에서 실행되는 쿼리와 모델 계보에서 런타임 데이터 계보를 캡처합니다. 계보는 모든 언어에 대해 지원되며 열 수준까지 캡처됩니다. 계보 데이터에는 쿼리와 관련된 Notebook, 워크플로 및 대시보드가 포함됩니다. 계보는 카탈로그 탐색기에서 거의 실시간으로 시각화되고 Databricks의 데이터 계보 REST API를 사용하여 액세스할 수 있습니다.

메타데이터에 일관된 설명 추가

설명은 데이터에 대한 필수 컨텍스트를 제공합니다. 사용자가 데이터 테이블 및 열의 목적과 내용을 이해하는 데 도움이 됩니다. 이러한 명확성을 통해 필요한 데이터를 보다 쉽게 검색, 식별 및 필터링할 수 있으며 이는 효과적인 데이터 분석 및 의사 결정에 매우 중요합니다. 설명에는 데이터 민감도 및 규정 준수 정보가 포함될 수 있습니다. 이를 통해 조직은 데이터 개인 정보 보호 및 보안에 대한 법률 및 규제 요구 사항을 충족할 수 있습니다. 설명에는 데이터의 원본, 정확도 및 관련성에 대한 정보도 포함되어야 합니다. 이렇게 하면 데이터 무결성을 보장하고 팀 전체에서 더 나은 공동 작업을 촉진할 수 있습니다.

Unity 카탈로그의 두 가지 주요 기능은 테이블 및 열 설명을 지원합니다. Unity 카탈로그는 다음을 허용합니다.

주석 형식의 테이블 및 열에 주석 을 추가합니다.

Unity 카탈로그에서 관리하는 테이블 또는 테이블 열에 대해 AI 생성 주석 을 추가하여 프로세스 속도를 높일 수도 있습니다. 그러나 AI 모델이 항상 정확한 것은 아니며 저장하기 전에 주석을 검토해야 합니다. Databricks는 AI에서 생성된 주석에 대한 사용자 검토를 강력히 권장하여 부정확성을 확인할 것을 권장합니다.
Unity 카탈로그의 보안 개체에 태그를 추가합니다. 태그는 Unity 카탈로그의 다른 보안 개체에 적용할 수 있는 키와 선택적 값이 있는 특성입니다. 태그 지정은 메타스토어 내에서 서로 다른 보안 개체를 구성하고 분류하는 데 유용합니다. 태그를 사용하면 데이터 자산을 더 쉽게 검색하고 검색할 수 있습니다.

데이터 소비자에게 쉬운 데이터 검색 허용

손쉬운 데이터 검색을 통해 데이터 과학자, 데이터 분석가 및 데이터 엔지니어는 관련 데이터를 신속하게 검색 및 참조하고 가치 창출 시간을 단축할 수 있습니다.

Databricks 카탈로그 탐색기는 데이터, 스키마(데이터베이스), 테이블 및 권한, 데이터 소유자, 외부 위치 및 자격 증명을 탐색하고 관리하기 위한 사용자 인터페이스를 제공합니다. 또한 카탈로그 탐색기의 인사이트 탭을 사용하여 Unity 카탈로그에 등록된 테이블의 가장 빈번한 최근 쿼리 및 사용자를 볼 수 있습니다.

데이터와 함께 AI 자산 관리

데이터 거버넌스와 AI(인공 지능) 간의 관계는 성공에 매우 중요해졌습니다. 조직이 데이터를 관리, 보호 및 사용하는 방식은 AI 구현의 결과 및 고려 사항에 직접적인 영향을 줍니다. 품질 데이터가 없는 AI는 사용할 수 없으며 데이터 거버넌스 없이는 품질 데이터를 가질 수 없습니다.

데이터와 AI를 함께 관리하면 고품질의 최신 데이터에 원활하게 액세스할 수 있으므로 AI 성능이 향상되어 정확도가 향상되고 의사 결정이 향상됩니다. 사일로를 분해하면 더 나은 협업을 가능하게 하고 워크플로를 간소화하여 생산성을 높이고 비용을 절감하여 효율성을 높입니다.

통합 거버넌스 접근 방식이 일관된 데이터 처리 사례를 확립하여 취약성을 줄이고 중요한 정보를 보호하는 조직의 기능을 향상하기 때문에 향상된 데이터 보안이 또 다른 이점입니다. 데이터 처리 및 AI 프로세스가 규제 요구 사항에 맞게 조정되므로 데이터 및 AI 거버넌스가 통합될 때 데이터 개인 정보 보호 규정을 준수하는 것이 더 쉽습니다.

전반적으로 통합 거버넌스 접근 방식은 데이터와 AI 모두에 대한 명확한 정책과 절차를 수립하여 이해 관계자 간의 신뢰를 촉진하고 AI 의사 결정 프로세스의 투명성을 보장합니다.

Databricks Data Intelligence 플랫폼에서 Unity 카탈로그는 데이터와 AI 자산을 모두 제어하기 위한 핵심 구성 요소입니다.

Unity 카탈로그의 기능

Unity 카탈로그 사용 작업 영역에서 데이터 과학자는 Unity 카탈로그에서 기능 테이블을 만들 수 있습니다. 이러한 기능 테이블은 Unity 카탈로그에서 관리하는 델타 테이블 또는 델타 라이브 테이블 입니다.
Unity 카탈로그의 모델

Unity 카탈로그의 모델은 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 모델 검색을 포함하여 Unity 카탈로그의 이점을 ML 모델로 확장합니다. Unity 카탈로그의 주요 기능에는 모델에 대한 거버넌스, 시간순 모델 계보, 모델 버전 관리 및 별칭을 통한 모델 배포가 포함됩니다.

2. 데이터 및 AI 보안 통합

모든 데이터 및 AI 자산에 대한 액세스 제어 중앙 집중화

모든 데이터 자산에 대한 액세스 제어를 중앙 집중화하는 것은 이러한 자산에 대한 액세스를 관리하고 감사하는 중앙 위치를 제공하여 데이터 및 AI 자산의 보안 및 거버넌스를 간소화하기 때문에 중요합니다. 이 접근 방식은 데이터 및 AI 개체 액세스를 보다 효율적으로 관리하는 데 도움이 되며, 규정 준수 및 위험 회피에 매우 중요한 의무 분리와 관련된 운영 요구 사항이 적용되도록 합니다.

Databricks Data Intelligence 플랫폼은 어떤 그룹 또는 개인이 어떤 데이터에 액세스할 수 있는지 설명하는 데이터 액세스 제어 방법을 제공합니다. 각 개인이 액세스할 수 있는 각 레코드의 정의까지 매우 세분화되고 구체적일 수 있는 정책 문입니다. 또는 모든 금융 사용자가 모든 금융 데이터를 볼 수 있는 것처럼 매우 표현적이고 광범위할 수 있습니다.

Unity 카탈로그는 테이블, 파일, 모델 등 지원되는 모든 보안 개체에 대한 액세스 제어를 중앙 집중화합니다. Unity 카탈로그의 모든 보안 개체에는 소유자가 있습니다. 개체의 소유자는 개체에 대한 모든 권한과 보안 개체에 대한 권한을 다른 보안 주체에게 부여하는 기능을 갖습니다. Unity 카탈로그를 사용하면 권한을 관리하고 SQL DDL 문을 사용하여 액세스 제어를 구성할 수 있습니다.

Unity 카탈로그는 세분화된 액세스 제어를 위해 행 필터 및 열 마스크를 사용합니다. 행 필터를 사용하면 후속 쿼리가 필터 조건자가 true로 평가되는 행만 반환하도록 테이블에 필터를 적용할 수 있습니다. 열 마스크를 사용하면 테이블 열에 마스킹 함수를 적용할 수 있습니다. 마스킹 함수는 쿼리 런타임에 평가되어 대상 열에 대한 각 참조를 마스킹 함수의 결과로 대체합니다.

자세한 내용은 보안, 규정 준수 및 개인 정보 보호를 참조 하세요. 최소 권한을 사용하여 ID 및 액세스 관리

감사 로깅 구성

감사 로깅은 시스템 무결성에 영향을 줄 수 있는 시스템 활동(사용자 작업, 설정 변경 등)에 대한 자세한 계정을 제공하기 때문에 중요합니다. 표준 시스템 로그는 개발자가 문제를 해결하는 데 도움이 되도록 설계되어 있지만 감사 로그는 규정 준수 및 기타 비즈니스 정책 적용을 위한 활동 기록 기록을 제공합니다. 강력한 감사 로그를 유지 관리하면 위협, 위반, 사기 및 기타 시스템 문제에 직면하여 대비를 식별하고 보장하는 데 도움이 될 수 있습니다.

Databricks는 Databricks 사용자가 수행하는 활동의 감사 로그에 대한 액세스를 제공하므로 조직에서 자세한 Databricks 사용 패턴을 모니터링할 수 있습니다. 작업 영역 수준 이벤트가 있는 작업 영역 수준 감사 로그와 계정 수준 이벤트가 있는 계정 수준 감사 로그에는 두 가지 유형의 로그가 있습니다.

작업 영역에서 쿼리 또는 명령이 실행될 때마다 기록되는 추가 감사 로그인 자세한 감사 로그를 사용하도록 설정할 수도 있습니다.

데이터 플랫폼 이벤트 감사

감사 로깅은 시스템 활동에 대한 자세한 계정을 제공하기 때문에 중요합니다. 데이터 인텔리전스 플랫폼에는 메타데이터 액세스(따라서 데이터 액세스) 및 데이터 공유에 대한 감사 로그가 있습니다.

Unity 카탈로그 는 메타스토어에 대해 수행된 작업의 감사 로그 를 캡처합니다. 이렇게 하면 관리자는 지정된 데이터 세트에 액세스한 사용자와 수행한 작업에 대한 미세 조정된 세부 정보에 액세스할 수 있습니다.
델타 공유와의 보안 공유를 위해 Azure Databricks는 다음을 포함하여 델타 공유 이벤트를 모니터링하는 감사 로그를 제공합니다.
- 다른 사용자가 공유 또는 받는 사람을 만들거나, 수정하거나, 업데이트하거나, 삭제할 때
- 받는 사람이 활성화 링크에 액세스하고 자격 증명을 다운로드하는 경우
- 받는 사람이 공유 테이블의 공유 또는 데이터에 액세스하는 경우
- 수신자의 자격 증명이 회전되거나 만료되는 경우

3. 데이터 품질 표준 설정

Databricks Data Intelligence 플랫폼은 다운스트림 BI, 분석 및 기계 학습 워크로드에 정확하고 유용한 데이터를 사용할 수 있도록 기본 제공 품질 제어, 테스트, 모니터링 및 적용을 통해 강력한 데이터 품질 관리를 제공합니다.

구현 세부 정보는 안정성 - 데이터 품질 관리에서 확인할 수 있습니다.

명확한 데이터 품질 표준 정의

명확하고 실행 가능한 데이터 품질 표준을 정의하는 것은 분석, 보고 및 의사 결정에 사용되는 데이터가 안정적이고 신뢰할 수 있도록 하는 데 도움이 되므로 매우 중요합니다. 이러한 표준을 문서화하면 표준을 유지할 수 있습니다. 데이터 품질 표준은 비즈니스의 특정 요구 사항을 기반으로 해야 하며 정확도, 완전성, 일관성, 타임라인 및 안정성과 같은 데이터 품질 차원을 해결해야 합니다.

정확도: 데이터가 실제 값을 정확하게 반영하는지 확인합니다.
완전성: 필요한 모든 데이터를 캡처해야 하며 중요한 데이터가 누락되지 않아야 합니다.
일관성: 모든 시스템의 데이터는 일관되어야 하며 다른 데이터와 모순되지 않아야 합니다.
타임라인: 데이터를 적시에 업데이트하고 사용할 수 있어야 합니다.
안정성: 데이터의 신뢰성을 보장하는 방식으로 데이터를 소스화하고 처리해야 합니다.

데이터 프로파일링, 정리, 유효성 검사 및 모니터링에 데이터 품질 도구 사용

데이터 프로파일링, 정리, 유효성 검사 및 모니터링에 데이터 품질 도구를 활용합니다. 이러한 도구는 데이터 품질 문제를 감지하고 수정하는 프로세스를 자동화하는 데 도움이 되며, 이는 데이터 레이크에서 일반적인 대규모 데이터 세트에 걸쳐 데이터 품질 이니셔티브를 확장하는 데 매우 중요합니다.

DLT를 사용하는 팀의 경우 예상을 사용하여 데이터 세트 내용에 대한 데이터 품질 제약 조건을 정의할 수 있습니다. 기대에 따라 테이블에 도착하는 데이터가 데이터 품질 요구 사항을 충족하도록 보장하고 각 파이프라인 업데이트의 데이터 품질에 대한 인사이트를 제공할 수 있습니다.

표준화된 데이터 형식 및 정의 구현 및 적용

표준화된 데이터 형식 및 정의는 모든 시스템에서 일관된 데이터 표현을 달성하여 데이터 통합 및 분석을 용이하게 하고, 비용을 절감하며, 팀 및 부서 간 커뮤니케이션 및 협업을 강화하여 의사 결정을 개선하는 데 도움이 됩니다. 또한 데이터 품질을 만들고 유지 관리하기 위한 구조를 제공하는 데도 도움이 됩니다.

조직 전체에서 사용되는 모든 데이터 요소에 대한 정의, 형식 및 허용 가능한 값을 포함하는 표준 데이터 사전을 개발하고 적용합니다.

모든 데이터베이스 및 애플리케이션에서 일관된 명명 규칙, 날짜 형식 및 측정 단위를 사용하여 불일치 및 혼동을 방지합니다.

다음을 통해 공유