Unity 카탈로그를 사용하여 클라우드 개체 스토리지 및 서비스에 연결
이 문서에서는 Unity 카탈로그를 사용하여 데이터를 사용하는 데 필요한 클라우드 스토리지 연결과 Unity 카탈로그가 클라우드 스토리지 및 외부 클라우드 서비스에 대한 액세스를 제어하는 방법에 대한 정보를 제공합니다.
참고 항목
2023년 11월 9일 이전에 작업 영역을 만든 경우 Unity 카탈로그를 사용하도록 설정되지 않았을 수 있습니다. 계정 관리자는 작업 영역에 대해 Unity 카탈로그를 사용하도록 설정해야 합니다. Unity 카탈로그에 작업 영역 사용을 참조하세요.
Unity 카탈로그는 클라우드 스토리지를 어떻게 사용하나요?
Databricks는 Unity 카탈로그를 사용하여 클라우드 개체 스토리지에 저장한 모든 데이터에 대한 액세스를 관리하는 것이 좋습니다. Unity 카탈로그는 클라우드 개체 스토리지에 대한 보안 연결을 구성하는 도구 모음을 제공합니다. 이러한 연결은 다음 작업을 완료하기 위한 액세스를 제공합니다.
- 레이크하우스에 원시 데이터를 수집합니다.
- Unity 카탈로그 관리형 클라우드 스토리지에서 관리되는 테이블과 관리되는 비정형 데이터의 볼륨을 만들고 읽습니다.
- 클라우드 공급자를 사용하여 관리되는 클라우드 스토리지의 구조화되지 않은 데이터가 포함된 테이블 형식 데이터 및 외부 볼륨이 포함된 외부 테이블을 등록하거나 만듭니다.
- 구조화되지 않은 데이터를 읽고 씁니다(Unity 카탈로그 볼륨).
보다 구체적으로 말하자면 Unity 카탈로그는 다음과 같은 두 가지 기본 방법으로 클라우드 스토리지를 사용합니다.
- Databricks에서 만드는 관리되는 테이블 및 관리되는 볼륨(구조화되지 않은 테이블 형식이 아닌 데이터)에 대한 기본(또는 "관리되는" 스토리지 위치) 이러한 관리되는 스토리지 위치는 메타스토어, 카탈로그 또는 스키마 수준에서 정의할 수 있습니다. 클라우드 공급자에서 관리되는 스토리지 위치를 만들지만 해당 수명 주기는 Unity 카탈로그에서 완전히 관리됩니다.
- 외부 테이블 및 볼륨이 저장되는 스토리지 위치입니다. Azure Databricks에서 액세스하는 테이블과 볼륨은 Unity 카탈로그에서 관리되지만 데이터 수명 주기 및 파일 레이아웃은 클라우드 공급자 및 기타 데이터 플랫폼을 사용하여 관리됩니다. 일반적으로 외부 테이블을 사용하여 Azure Databricks에서 많은 양의 기존 데이터를 등록하거나 Azure Databricks 외부의 도구를 사용하여 데이터에 대한 쓰기 액세스가 필요한 경우.
관리되는 테이블과 외부 테이블 및 볼륨에 대한 자세한 내용은 테이블 및 뷰란? 및 Unity 카탈로그 볼륨이란?을 참조하세요.
Warning
최종 사용자에게 Unity 카탈로그 관리 테이블 또는 볼륨에 대한 스토리지 수준 액세스 권한을 부여하지 마세요. 이렇게 하면 데이터 보안 및 거버넌스가 훼손됩니다.
사용자에게 Azure Data Lake Storage Gen2의 외부 위치 스토리지에 대한 직접 스토리지 수준 액세스 권한을 부여해도 Unity 카탈로그에서 부여된 권한 또는 유지 관리하는 감사는 적용되지 않습니다. 직접 액세스는 액세스 제어 및 권한을 포함하여 Unity 카탈로그의 감사, 계보 및 기타 보안 및 모니터링 기능을 건너뜁니다. Azure Data Lake Storage Gen2를 통해 직접 스토리지 액세스를 관리하고 사용자에게 Fabric을 통해 부여된 적절한 권한이 있는지 확인할 책임이 있습니다.
Databricks 관리 테이블을 저장하는 버킷에 대해 직접 스토리지 수준 쓰기 권한을 부여하는 모든 시나리오를 방지합니다. 원래 Unity 카탈로그에서 관리했던 스토리지를 통해 개체를 직접 수정, 삭제 또는 발전시키면 데이터 손상이 일어날 수 있습니다.
지원되는 클라우드 스토리지 공급자는 무엇입니까?
Azure Databricks는 Azure Data Lake Storage Gen2 컨테이너와 Cloudflare R2 버킷을 모두 Unity 카탈로그에 등록된 데이터 및 AI 자산에 대한 클라우드 스토리지 위치로 지원합니다. R2는 주로 클라우드 및 지역에서 델타 공유와 같은 데이터 Egress 비용을 방지하려는 사용 사례를 위한 것입니다. 자세한 내용은 Cloudflare R2 복제본 사용 또는 스토리지를 R2로 마이그레이션을 참조하세요.
Unity 카탈로그는 클라우드 스토리지에 대한 액세스를 어떻게 제어하나요?
테이블과 볼륨을 보유하는 기본 클라우드 스토리지에 대한 액세스를 관리하기 위해 Unity Catalog는 외부 위치라는 보안 개체를 사용합니다. 이 개체는 클라우드 스토리지 위치의 경로와 해당 위치에 액세스하는 데 필요한 자격 증명을 정의합니다. 이러한 자격 증명은 스토리지 자격 증명이라는 Unity 카탈로그 보안 개체에 정의됩니다. Unity 카탈로그의 외부 위치 보안 개체에 대한 액세스 권한을 부여하고 취소하면 클라우드 스토리지 위치의 데이터에 대한 액세스를 제어할 수 있습니다. Unity 카탈로그에서 스토리지 자격 증명 보안 개체에 대한 액세스 권한을 부여하고 취소하면 외부 위치 개체를 만드는 기능을 제어할 수 있습니다.
자세한 내용은 Unity 카탈로그를 사용하여 클라우드 스토리지에 대한 액세스 관리를 참조 하세요.
클라우드 스토리지에 대한 경로 기반 액세스
Unity 카탈로그는 클라우드 스토리지 URI를 사용하여 외부 테이블 및 외부 볼륨에 대한 경로 기반 액세스를 지원하지만, Databricks는 사용자가 테이블 이름을 사용하여 모든 Unity 카탈로그 테이블을 읽고 쓰고 경로를 사용하여 /Volumes
볼륨의 데이터에 액세스하는 것이 좋습니다. 볼륨은 대부분의 Azure Databricks 사용자가 클라우드 개체 스토리지의 표 형식이 아닌 데이터와 직접 상호 작용하는 데 사용해야 하는 보안 개체입니다. Unity 카탈로그 볼륨이란?을 참조하세요.
Unity 카탈로그를 사용한 클라우드 스토리지 모범 사례
Azure Databricks는 Unity 카탈로그 거버넌스를 사용하여 Azure Databricks에서 처리되는 데이터에 대한 Azure Storage 서비스로 Azure Data Lake Storage Gen2를 사용해야 합니다. Azure Data Lake Storage Gen2를 사용하면 스토리지 및 컴퓨팅 비용을 구분하고 Unity 카탈로그에서 제공하는 세분화된 액세스 제어를 활용할 수 있습니다. 데이터가 OneLake(Microsoft Fabric 데이터 레이크)에 저장되고 Databricks(Unity 카탈로그 무시)에서 처리되는 경우 번들 스토리지 및 컴퓨팅 비용이 발생합니다. 이로 인해 데이터를 저장, 읽기 및 쓰기를 위한 Azure Data Lake Storage Gen2에 비해 읽기의 경우 약 3배, 쓰기의 경우 1.6배 더 높은 비용이 발생할 수 있습니다. Azure Blob Storage는 Unity 카탈로그와도 호환되지 않습니다.
기능 | Azure Blob Storage | Azure Data Lake Storage Gen2 | OneLake |
---|---|---|---|
Unity 카탈로그에서 지원 | X | ✓ | X |
추가 패브릭 용량 구매 필요 | X | X | ✓ |
외부 엔진에서 지원되는 작업 | - 읽음 - 쓰기 |
- 읽음 - 쓰기 |
- 읽기(읽기는 Azure Data Lake Storage Gen2에서 데이터를 읽는 것과 비교하여 3배의 비용이 발생합니다). - 쓰기는 지원되지 않습니다. 세부 정보는 OneLake 설명서를 참조하세요. |
배포 | 지역 | 지역 | 전역 |
인증 | Entra ID 공유 액세스 서명 | Entra ID 공유 액세스 서명 | Entra ID |
스토리지 이벤트 | ✓ | ✓ | X |
일시 삭제 | ✓ | ✓ | ✓ |
Access Control | RBAC | RBAC, ABAC, ACL | RBAC(테이블/폴더에만 해당, 바로 가기 ACL은 지원되지 않음) |
암호화 키 | ✓ | ✓ | X |
액세스 계층 | 온라인 보관함 | 핫, 쿨, 콜드, 보관 | 핫 전용 |
Unity 카탈로그는 다른 클라우드 서비스에 대한 액세스를 어떻게 제어하나요?
Unity 카탈로그는 서비스 자격 증명이라는 보안 개체를 사용하여 비 스토리지 서비스에 대한 액세스를 제어합니다. 서비스 자격 증명은 사용자가 Azure Databricks에서 연결해야 하는 외부 서비스에 대한 액세스를 제공하는 장기 클라우드 자격 증명을 캡슐화합니다.
서비스 자격 증명은 Unity 카탈로그 관리 스토리지 위치 또는 외부 스토리지 위치로 사용되는 클라우드 스토리지에 대한 액세스를 제어하기 위한 것이 아닙니다. 이러한 사용 사례의 경우 Unity 카탈로그에서 클라우드 스토리지에 대한 액세스를 제어하는 방법에 설명된 대로 스토리지 자격 증명을 사용합니다.
자세한 내용은 다음을 참조하세요.
다음 단계
Unity 카탈로그를 관리자로 시작하는 경우 다음을 참조하세요.
새 사용자이고 작업 영역이 Unity 카탈로그에 대해 이미 사용하도록 설정된 경우 다음을 참조하세요.
클라우드 스토리지에 대한 액세스를 관리하는 방법에 대한 자세한 내용은 다음을 참조하세요.
클라우드 서비스에 대한 액세스를 관리하는 방법에 대한 자세한 내용은 다음을 참조하세요.