데이터 거버넌스 는 조직의 데이터가 안전하고 신뢰할 수 있으며 수명 주기 내내 책임감 있게 사용되도록 하는 정책, 프로세스, 역할 및 기술 제어의 프레임워크입니다. 효과적인 데이터 거버넌스를 사용하면 데이터 품질을 유지하고, 중요한 정보를 보호하고, 규정 요구 사항을 충족하고, 데이터 자산의 가치를 최대화할 수 있습니다.
데이터 거버넌스의 주요 구성 요소는 다음과 같습니다.
- 액세스 제어 및 보안: 적절한 사용을 사용하도록 설정하면서 무단 액세스로부터 데이터를 보호하기 위한 세분화된 권한 및 보안 조치를 구현합니다.
- 데이터 계보 및 관찰 가능성: 데이터 흐름 및 변환을 추적하여 데이터 원본, 종속성 및 사용 패턴을 이해합니다.
- 데이터 품질 관리: 의사 결정 및 분석을 위해 데이터가 정확하고 완전하며 일관되며 신뢰할 수 있는지 확인합니다.
- 메타데이터 관리: 데이터 자산에 대한 정보를 캡처하고 유지 관리하여 검색 가능성과 이해를 향상시킵니다.
- 규정 준수 적용: 데이터 개인 정보, 보존 및 사용에 대한 규정 요구 사항 및 조직 정책을 충족합니다.
이 페이지에서는 Azure Databricks에서 Unity 카탈로그를 사용하는 데이터의 거버넌스에 중점을 둡니다. 인증, 네트워크 구성, 데이터 암호화 및 개인 정보 규정 준수와 같은 관련 보안 항목은 보안 및 규정 준수 및 규정 준수개요에서 다룹니다.
Unity 카탈로그 데이터 거버넌스 모델
Unity 카탈로그 는 여러 형식의 구조화된 데이터와 구조화되지 않은 데이터에 대한 거버넌스를 제공하는 중앙 집중식 데이터 카탈로그입니다. 기계 학습 모델과 같은 AI 자산의 세분화된 액세스 제어 및 거버넌스를 제공합니다. Unity 카탈로그는 오픈 소스 이며 여러 플랫폼을 지원합니다. Azure Databricks에 깊이 통합되어 있습니다.
Unity 카탈로그는 다음을 제공하는 완전한 데이터 거버넌스 솔루션입니다.
- 데이터 통합: 플랫폼 간에 모든 데이터 및 AI 자산의 통합 보기로 중복 및 확산을 줄입니다.
- 데이터 액세스 제어: 데이터에 액세스할 수 있지만 적합한 사용자만 액세스할 수 있도록 하는 도구입니다.
- 데이터 검색 기능: 필요한 데이터를 쉽게 찾을 수 있는 도구입니다.
- 데이터 품질: 수명 주기 내내 정확하고 완전하며 일관되고 안전한 데이터를 보장하는 도구입니다.
- 데이터 공동 작업 및 공유: 조직 내에서뿐만 아니라 조직 및 플랫폼 경계를 넘어 데이터를 안전하게 공유하는 도구입니다.
- 감사: 누가 데이터를 사용하는지와 그 방법을 기록하는 도구입니다.
이 페이지에서는 Azure Databricks에서 Unity 카탈로그를 사용하여 조직에서 이러한 요구 사항을 충족하는 방법을 설명합니다.
데이터 액세스 제어
사용자가 필요한 데이터에만 액세스하도록 하기 위해 Unity 카탈로그는 사용자, 그룹 및 서비스 주체에게 계정 수준에서 테이블 행 및 열까지 데이터 및 AI 자산에 대한 액세스 권한을 부여할 수 있는 계층적 권한 모델을 제공합니다. 전용 Unity 카탈로그 스토리지에 저장되거나 클라우드 스토리지 또는 데이터베이스 시스템과 같은 다른 플랫폼에 저장된 자산에 대한 액세스를 제어할 수 있습니다. 핵심은 Unity 카탈로그가 Azure Databricks 내에서 모든 데이터에 대한 잠재적 액세스 권한을 사용자에게 제공하고 Unity 카탈로그가 액세스를 제어하고 데이터 사용량을 추적한다는 것입니다.
| 과업 | 설명 |
|---|---|
| 권한 관리 | Unity 카탈로그에서 관리하는 보안 개체 및 해당 개체에 대한 액세스를 제어하는 방법에 대해 알아봅니다. |
| ABAC(특성 기반 액세스 제어) 관리 | Unity 카탈로그에서 ABAC를 사용하여 데이터에 대한 액세스를 제어하는 방법을 알아봅니다. |
| ID 관리 | Unity 카탈로그의 컨텍스트에서 ID를 관리하는 방법을 알아봅니다. |
| 세분화된 액세스 제어 | 행 필터 및 열 마스크를 사용하여 테이블 데이터에 대한 액세스를 제어하는 방법을 알아봅니다. |
| 외부 스토리지 및 데이터 플랫폼에 대한 액세스 관리 | Unity 카탈로그를 사용하여 클라우드 스토리지, 외부 데이터 플랫폼 및 외부 비데이터 서비스에 대한 액세스를 제어하는 방법을 알아봅니다. |
| 외부 플랫폼에서 액세스 관리 | Unity 카탈로그가 Apache Iceberg 또는 오픈 소스 Unity 카탈로그 API를 사용하는 외부 플랫폼에서 데이터에 대한 액세스를 관리하는 방법을 알아봅니다. |
데이터 검색 가능성
Azure Databricks 및 Unity 카탈로그는 사용자가 필요한 데이터를 찾는 데 도움이 되는 다음 도구를 제공합니다.
| 특징 | 설명 |
|---|---|
| 카탈로그 탐색기 | 자산 이름 및 메모 및 태그와 같은 메타데이터를 사용하여 데이터 및 AI 자산을 찾아 검색합니다. |
| 카탈로그 브라우저 | Notebook 및 SQL 쿼리 편집기에 기본 제공되는 브라우저를 사용하여 데이터 및 AI 자산을 찾습니다. Databricks Notebook 및 파일 편집기 탐색을 참조하세요새 SQL 편집기에서 쿼리를 작성하고 데이터를 탐색하십시오. |
| AI에서 생성된 주석 | 검색 가능성을 지원하기 위해 데이터 및 AI 자산에 대한 설명서를 자동으로 생성합니다. |
| 테이블 인사이트 | 카탈로그 탐색기에 기본 제공되는 UI를 사용하여 Unity 카탈로그에서 테이블의 가장 빈번한 사용자 및 쿼리를 볼 수 있습니다. |
| 데이터 계보 | 조직을 통해 데이터가 흐르는 방식을 캡처하고 시각화합니다. 기능 및 모델 계보는 기능 거버넌스 및 계보를 참조하세요. |
| ERD(엔터티 관계 다이어그램) | 외세 키가 정의된 테이블의 관계를 표시합니다. |
데이터 검색도 참조하세요.
데이터 품질 모니터링
데이터 품질 및 데이터 무결성을 보장하는 도구는 Delta Lake, Apache Spark 및 Azure Databricks에 깊이 통합됩니다. Azure Databricks 설명서 전체에서 자세히 알아볼 수 있습니다.
Unity 카탈로그는 다음을 추가합니다.
| 특징 | 설명 |
|---|---|
| 데이터 품질 모니터링 | 데이터 품질 모니터링은 Unity 카탈로그의 모든 데이터 자산의 품질을 보장하는 데 도움이 됩니다. 여기에는 카탈로그 또는 스키마에 있는 모든 테이블의 데이터 품질을 모니터링하는 변칙 검색과 개별 테이블의 데이터 통계 속성 및 품질을 모니터링하는 데이터 프로파일링이 포함됩니다. |
| 인증된 시스템 태그 및 사용되지 않는 시스템 태그(프라이빗 미리 보기) | 카탈로그, 스키마 및 테이블과 같은 보안 개체에 데이터 품질 또는 수명 주기 상태 표시기를 사용하여 레이블을 지정합니다. 이러한 시스템 태그는 조직이 거버넌스를 적용하고, 데이터 검색 가능성을 개선하며, 분석 및 AI 애플리케이션에 대한 신뢰를 높이는 데 도움이 됩니다. |
데이터 공동 작업 및 공유
Unity 카탈로그를 사용하면 사용자가 동일한 지역의 모든 계정 작업 영역에서 동일한 데이터에 대해 공동 작업할 수 있습니다. 작업 영역 영역, 조직 간 및 플랫폼 간 협업이 필요한 경우 Unity 카탈로그는 다음 공유 도구의 토대를 제공합니다.
| 특징 | 설명 |
|---|---|
| 델타 공유 | Azure Databricks의 데이터 및 AI 자산을 해당 사용자가 Databricks를 사용하는지 여부에 관계없이 조직 외부의 사용자와 공유할 수 있는 보안 데이터 공유 플랫폼입니다. |
| 클린룸 | Databricks 및 비 Databricks 플랫폼의 여러 참가자가 기본 데이터를 공유하지 않고도 프로젝트에서 공동 작업할 수 있는 Databricks 관리 환경입니다. |
| Databricks Marketplace | 데이터 및 AI 제품을 교환하기 위한 공개 포럼입니다. 또한 프라이빗 데이터 교환을 제공합니다. |
감사
감사 로그는 지정된 데이터 세트에 액세스한 사용자와 수행한 작업에 대한 세분화된 세부 정보를 캡처합니다. Unity 카탈로그는 계정의 감사 로그에 액세스하고 쿼리하는 가장 쉬운 방법인 시스템 테이블을 추가합니다.
시스템 테이블을 사용하여 진단 로그 참조 및 모니터링 계정 작업을 참조하세요.
레거시 Azure Databricks 데이터 거버넌스 도구
Azure Databricks는 이러한 레거시 거버넌스 기능도 제공합니다. Databricks는 대신 Unity 카탈로그를 사용하는 것이 좋습니다.
| 특징 | 설명 |
|---|---|
| 테이블 액세스 제어 | 작업 영역의 기본 제공 Hive 메타스토어에서 관리하는 개체에 대한 액세스 권한을 프로그래밍 방식으로 부여하고 취소할 수 있는 레거시 데이터 거버넌스 모델입니다. |
| Azure Data Lake Storage 자격 증명 통과 | Azure Databricks에 로그인하는 데 사용하는 것과 동일한 Microsoft Entra ID ID를 사용하여 Azure Databricks 클러스터에서 Azure Storage에 자동으로 인증할 수 있는 레거시 데이터 거버넌스 기능입니다. |
다음 단계
- Unity 카탈로그: Unity 카탈로그란?에 대해 자세히 알아보세요.
- Unity 카탈로그 시작: Unity 카탈로그 시작
- 모범 사례 검토: Unity 카탈로그란?