데이터 거버넌스 는 조직의 데이터가 안전하고 신뢰할 수 있으며 수명 주기 내내 책임감 있게 사용되도록 하는 정책, 프로세스, 역할 및 기술 제어의 프레임워크입니다. 효과적인 데이터 거버넌스를 사용하면 데이터 품질을 유지하고, 중요한 정보를 보호하고, 규정 요구 사항을 충족하고, 데이터 자산의 가치를 최대화할 수 있습니다.
데이터 거버넌스의 주요 구성 요소는 다음과 같습니다.
- 액세스 제어 및 보안: 적절한 사용을 사용하도록 설정하면서 무단 액세스로부터 데이터를 보호하기 위한 세분화된 권한 및 보안 조치를 구현합니다.
- 데이터 계보 및 관찰 가능성: 데이터 흐름 및 변환을 추적하여 데이터 원본, 종속성 및 사용 패턴을 이해합니다.
- 데이터 품질 관리: 의사 결정 및 분석을 위해 데이터가 정확하고 완전하며 일관되며 신뢰할 수 있는지 확인합니다.
- 메타데이터 관리: 데이터 자산에 대한 정보를 캡처하고 유지 관리하여 검색 가능성과 이해를 향상시킵니다.
- 규정 준수 적용: 데이터 개인 정보, 보존 및 사용에 대한 규정 요구 사항 및 조직 정책을 충족합니다.
이 페이지에서는 Azure Databricks Unity 카탈로그를 사용하는 데이터의 거버넌스에 중점을 둡니다. 인증, 네트워크 구성, 데이터 암호화 및 개인 정보 규정 준수와 같은 관련 보안 항목은 보안 및 규정 준수 및 규정 준수개요에서 다룹니다.
Unity 카탈로그 데이터 거버넌스 모델
Unity 카탈로그 는 여러 형식의 구조화된 데이터와 구조화되지 않은 데이터에 대한 거버넌스를 제공하는 중앙 집중식 데이터 카탈로그입니다. 기계 학습 모델과 같은 AI 자산의 세분화된 액세스 제어 및 거버넌스를 제공합니다. Unity 카탈로그는 오픈 소스 이며 여러 플랫폼을 지원합니다. Azure Databricks와 깊이 통합되어 있습니다.
Unity 카탈로그는 다음을 제공하는 완전한 데이터 거버넌스 솔루션입니다.
- 데이터 통합: 플랫폼 간에 모든 데이터 및 AI 자산의 통합 보기로 중복 및 확산을 줄입니다.
- 데이터 액세스 제어: 데이터에 액세스할 수 있지만 적합한 사용자만 액세스할 수 있도록 하는 도구입니다.
- 데이터 검색 기능: 필요한 데이터를 쉽게 찾을 수 있는 도구입니다.
- 데이터 품질: 수명 주기 내내 정확하고 완전하며 일관되고 안전한 데이터를 보장하는 도구입니다.
- 데이터 공동 작업 및 공유: 조직 내에서뿐만 아니라 조직 및 플랫폼 경계를 넘어 데이터를 안전하게 공유하는 도구입니다.
- 감사: 누가 데이터를 사용하는지와 그 방법을 기록하는 도구입니다.
이 페이지에서는 조직에서 Azure Databricks Unity 카탈로그를 사용하여 이러한 요구 사항을 충족하는 방법을 설명합니다.
데이터 액세스 제어
사용자가 필요한 데이터에만 액세스하도록 하기 위해 Unity 카탈로그는 사용자, 그룹 및 서비스 주체에게 계정 수준에서 테이블 행 및 열까지 데이터 및 AI 자산에 대한 액세스 권한을 부여할 수 있는 계층적 권한 모델을 제공합니다. 전용 Unity 카탈로그 스토리지에 저장되거나 클라우드 스토리지 또는 데이터베이스 시스템과 같은 다른 플랫폼에 저장된 자산에 대한 액세스를 제어할 수 있습니다. 핵심은 Unity 카탈로그가 Azure Databricks 내의 모든 데이터에 대한 잠재적 액세스 권한을 사용자에게 제공하고 Unity 카탈로그가 액세스를 제어하고 데이터 사용량을 추적한다는 것입니다.
| 과업 | 설명 |
|---|---|
| 권한 관리 | Unity 카탈로그에서 관리하는 보안 개체 및 해당 개체에 대한 액세스를 제어하는 방법에 대해 알아봅니다. |
| ABAC(특성 기반 액세스 제어) 관리 | Unity 카탈로그에서 ABAC를 사용하여 데이터에 대한 액세스를 제어하는 방법을 알아봅니다. |
| ID 관리 | Unity 카탈로그의 컨텍스트에서 ID를 관리하는 방법을 알아봅니다. |
| 세분화된 액세스 제어 | 행 필터 및 열 마스크를 사용하여 테이블 데이터에 대한 액세스를 제어하는 방법을 알아봅니다. |
| 외부 스토리지 및 데이터 플랫폼에 대한 액세스 관리 | Unity 카탈로그를 사용하여 클라우드 스토리지, 외부 데이터 플랫폼 및 외부 비데이터 서비스에 대한 액세스를 제어하는 방법을 알아봅니다. |
| 외부 플랫폼에서 액세스 관리 | Unity 카탈로그가 Apache Iceberg 또는 오픈 소스 Unity 카탈로그 API를 사용하는 외부 플랫폼에서 데이터에 대한 액세스를 관리하는 방법을 알아봅니다. |
데이터 검색 가능성
Azure Databricks 및 Unity 카탈로그는 사용자가 필요한 데이터를 찾는 데 도움이 되는 다음 도구를 제공합니다.
| 특징 | 설명 |
|---|---|
| 카탈로그 탐색기 | 자산 이름 및 메모 및 태그와 같은 메타데이터를 사용하여 데이터 및 AI 자산을 찾아 검색합니다. |
| 카탈로그 브라우저 | Notebook 및 SQL 쿼리 편집기에 기본 제공되는 브라우저를 사용하여 데이터 및 AI 자산을 찾습니다. Databricks Notebook 및 파일 편집기 탐색을 참조하세요새 SQL 편집기에서 쿼리를 작성하고 데이터를 탐색하십시오. |
| AI에서 생성된 주석 | 검색 가능성을 지원하기 위해 데이터 및 AI 자산에 대한 설명서를 자동으로 생성합니다. |
| 테이블 인사이트 | 카탈로그 탐색기에 기본 제공되는 UI를 사용하여 Unity 카탈로그에서 테이블의 가장 빈번한 사용자 및 쿼리를 볼 수 있습니다. |
| 데이터 계보 | 조직을 통해 데이터가 흐르는 방식을 캡처하고 시각화합니다. 기능 및 모델 계보는 기능 거버넌스 및 계보를 참조하세요. |
| ERD(엔터티 관계 다이어그램) | 외세 키가 정의된 테이블의 관계를 표시합니다. |
데이터 검색도 참조하세요.
데이터 품질 모니터링
데이터 품질 및 데이터 무결성을 보장하기 위한 도구는 Delta Lake, Apache Spark 및 Azure Databricks 긴밀하게 통합됩니다. Azure Databricks 설명서 전체에서 자세히 알아볼 수 있습니다.
Unity 카탈로그는 다음을 추가합니다.
| 특징 | 설명 |
|---|---|
| 데이터 품질 모니터링 | 데이터 품질 모니터링은 Unity 카탈로그의 모든 데이터 자산의 품질을 보장하는 데 도움이 됩니다. 여기에는 카탈로그 또는 스키마에 있는 모든 테이블의 데이터 품질을 모니터링하는 변칙 검색과 개별 테이블의 데이터 통계 속성 및 품질을 모니터링하는 데이터 프로파일링이 포함됩니다. |
| 인증된 시스템 태그 및 사용되지 않는 시스템 태그(프라이빗 미리 보기) | 카탈로그, 스키마 및 테이블과 같은 보안 개체에 데이터 품질 또는 수명 주기 상태 표시기를 사용하여 레이블을 지정합니다. 이러한 시스템 태그는 조직이 거버넌스를 적용하고, 데이터 검색 가능성을 개선하며, 분석 및 AI 애플리케이션에 대한 신뢰를 높이는 데 도움이 됩니다. |
데이터 공동 작업 및 공유
Unity 카탈로그를 사용하면 사용자가 동일한 지역의 모든 계정 작업 영역에서 동일한 데이터에 대해 공동 작업할 수 있습니다. 작업 영역 영역, 조직 간 및 플랫폼 간 협업이 필요한 경우 Unity 카탈로그는 다음 공유 도구의 토대를 제공합니다.
| 특징 | 설명 |
|---|---|
| 델타 공유 | 사용자가 Databricks를 사용하든 그렇지 않든 관계없이 Azure Databricks 데이터 및 AI 자산을 조직 외부의 사용자와 공유할 수 있는 보안 데이터 공유 플랫폼입니다. |
| 클린룸 | Databricks 및 비 Databricks 플랫폼의 여러 참가자가 기본 데이터를 공유하지 않고도 프로젝트에서 공동 작업할 수 있는 Databricks 관리 환경입니다. |
| Databricks Marketplace | 데이터 및 AI 제품을 교환하기 위한 공개 포럼입니다. 또한 프라이빗 데이터 교환을 제공합니다. |
감사
감사 로그는 지정된 데이터 세트에 액세스한 사용자와 수행한 작업에 대한 세분화된 세부 정보를 캡처합니다. Unity 카탈로그는 계정의 감사 로그에 액세스하고 쿼리하는 가장 쉬운 방법인 시스템 테이블을 추가합니다.
진단 로그 참조 및 시스템 테이블 참조를 참조하세요.
레거시 Azure Databricks 데이터 거버넌스 도구
Azure Databricks 이러한 레거시 거버넌스 기능도 제공합니다. Databricks는 대신 Unity 카탈로그를 사용하는 것이 좋습니다.
| 특징 | 설명 |
|---|---|
| 테이블 액세스 제어 | 작업 영역의 기본 제공 Hive 메타스토어에서 관리하는 개체에 대한 액세스 권한을 프로그래밍 방식으로 부여하고 취소할 수 있는 레거시 데이터 거버넌스 모델입니다. |
| Azure Data Lake Storage 자격 증명 통과 | Azure Databricks 로그인하는 데 사용하는 것과 동일한 Microsoft Entra ID ID를 사용하여 Azure Databricks 클러스터에서 Azure Storage 자동으로 인증할 수 있는 레거시 데이터 거버넌스 기능입니다. |
다음 단계
- Unity 카탈로그: Unity 카탈로그란?에 대해 자세히 알아보세요.
- Unity 카탈로그 시작: Unity 카탈로그 시작
- 모범 사례 검토: Unity 카탈로그란?