이 문서에서는 Azure와 함께 엔터프라이즈 아키텍처를 포함하여 Azure Databricks 아키텍처에 대한 개략적인 개요를 제공합니다.
Databricks 개체
Azure Databricks 계정은 조직 전체에서 Azure Databricks를 관리하는 데 사용하는 최상위 구문입니다. 계정 수준에서 다음을 관리합니다.
- ID 및 액세스: 사용자, 그룹, 서비스 주체 및 사용자 프로비저닝
작업 영역 관리: 여러 지역에서 작업 영역을 만들고, 업데이트하고, 삭제합니다.
Unity 카탈로그 메타스토어 관리: 메타스토어를 만들고 작업 영역에 연결합니다.
사용 관리: 청구, 규정 준수 및 정책.
계정에는 여러 작업 영역 및 Unity 카탈로그 메타스토어가 포함될 수 있습니다.
작업 영역 은 사용자가 수집, 대화형 탐색, 예약된 작업 및 ML 학습과 같은 컴퓨팅 워크로드를 실행하는 공동 작업 환경입니다.
Unity 카탈로그 메타스토터는 테이블 및 ML 모델과 같은 데이터 자산에 대한 중앙 거버넌스 시스템입니다. 메타스토어의 데이터를 3개 수준 네임스페이스로 구성합니다.
<catalog-name>.<schema-name>.<object-name>
메타스토어가 작업 영역에 연결됩니다. 단일 메타스토어를 동일한 지역의 여러 Azure Databricks 작업 영역에 연결하여 각 작업 영역에 동일한 데이터 보기를 제공할 수 있습니다. 데이터 액세스 제어는 연결된 모든 작업 영역에서 관리할 수 있습니다.
작업 영역 아키텍처
Azure Databricks는 제어 평면 및 컴퓨팅 평면에서 작동합니다.
컨트롤 플레인에는 Azure Databricks가 Azure Databricks 계정에서 관리하는 백 엔드 서비스가 포함됩니다. 컨트롤 플레인 웹 애플리케이션
컴퓨팅 평면은 데이터가 처리되는 위치입니다. 사용 중인 컴퓨팅에 따라 두 가지 유형의 컴퓨팅 평면이 있습니다.
- 서버리스 컴퓨팅의 경우 서버리스 컴퓨팅 리소스는 Azure Databricks 계정의 서버리스 컴퓨팅 평면 에서 실행됩니다.
- 클래식 Azure Databricks 컴퓨팅의 경우 컴퓨팅 리소스는 클래식 컴퓨팅 평면이라고 하는 Azure 구독에 있습니다. 이는 Azure 구독의 네트워크 및 해당 리소스를 나타냅니다.
클래식 컴퓨팅 및 서버리스 컴퓨팅에 대한 자세한 내용은 Compute를 참조하세요.
클래식 작업 영역 아키텍처
클래식 Azure Databricks 작업 영역에는 작업 영역 스토리지 계정이라고 하는 연결된 스토리지 계정이 있습니다. 작업 공간 저장 계정은 Azure 구독에 있습니다.
다음 다이어그램에서는 클래식 작업 영역에 대한 일반적인 Azure Databricks 아키텍처를 설명합니다.
서버리스 작업 영역 아키텍처
서버리스 작업 영역의 작업 영역 스토리지는 작업 영역의 기본 스토리지에 저장됩니다. 클라우드 스토리지 계정에 연결하여 데이터에 액세스할 수도 있습니다. 다음 다이어그램에서는 서버리스 작업 영역에 대한 일반 아키텍처를 설명합니다.
서버리스 컴퓨팅 플레인
서버리스 컴퓨팅 플레인에서 Azure Databricks 컴퓨팅 리소스는 Azure Databricks 계정 내의 컴퓨팅 계층에서 실행됩니다. Azure Databricks는 작업 영역의 클래식 컴퓨팅 평면과 동일한 Azure 지역에 서버리스 컴퓨팅 평면을 만듭니다. 작업 영역을 만들 때 이 지역을 선택합니다.
서버리스 컴퓨팅 평면 내에서 고객 데이터를 보호하기 위해 서버리스 컴퓨팅은 워크스페이스의 네트워크 경계 내에서 실행되며, 다양한 보안 계층을 통해 서로 다른 Azure Databrick 고객 워크스페이스를 격리하고 동일한 고객의 클러스터 간에 추가 네트워크 제어 기능을 제공합니다.
서버리스 컴퓨팅 평면의 네트워킹에 대해 자세히 알아보려면 서버리스 컴퓨팅 평면 네트워킹을 참조하세요.
클래식 컴퓨팅 평면
기존 컴퓨팅 평면에서 Azure Databricks 컴퓨팅 리소스는 Azure 구독에서 실행됩니다. 새 컴퓨팅 리소스는 고객의 Azure 구독에 있는 각 작업 영역의 가상 네트워크 내에서 만들어집니다.
클래식 컴퓨팅 평면은 각 고객의 자체 Azure 구독에서 실행되므로 자연스럽게 격리됩니다. 클래식 컴퓨팅 평면의 네트워킹에 대한 자세한 내용은 클래식 컴퓨팅 평면 네트워킹을 참조하세요.
지역별 지원은 Azure Databricks 지역을 참조하세요.
작업 영역 스토리지
작업 영역 스토리지는 작업 영역 유형에 따라 다르게 처리됩니다. 작업 영역 형식에 대한 자세한 내용은 작업 영역 만들기를 참조하세요.
서버리스 작업 영역
서버리스 작업 영역은 작업 영역의 시스템 데이터 및 Unity 카탈로그 카탈로그에 대해 완전히 관리되는 스토리지 위치인 기본 스토리지를 사용합니다. 서버리스 작업 영역은 클라우드 스토리지 위치에 연결하는 기능도 지원합니다. Databricks의 기본 스토리지를 참조하세요.
클래식 작업 영역
작업 영역 스토리지 계정에는 다음이 포함됩니다.
- 작업 영역 시스템 데이터: Notebook 만들기와 같은 다양한 Azure Databricks 기능을 사용하면 작업 영역 시스템 데이터가 생성됩니다. 이 버킷에는 Notebook 수정 버전, 작업 실행 세부 정보, 명령 결과 및 Spark 로그가 포함됩니다.
- Unity 카탈로그 작업 영역 카탈로그: 작업 영역이 자동으로 Unity 카탈로그에 사용하도록 설정된 경우 작업 영역 스토리지 계정에 기본 작업 영역 카탈로그가 포함됩니다. 작업 영역의 모든 사용자는 이 카탈로그의 기본 스키마에 자산을 만들 수 있습니다. Unity 카탈로그 시작을 참조하세요.
- DBFS(레거시): DBFS 루트 및 DBFS 탑재는 레거시이며 작업 영역에서 사용하지 않도록 설정될 수 있습니다. DBFS (Databricks 파일 시스템)는 Azure Databricks 환경 내에서
dbfs:/네임스페이스 하에 있는 분산 파일 시스템입니다. DBFS 루트 및 DBFS 탑재는 모두dbfs:/네임스페이스에 있습니다. DBFS 루트 또는 DBFS 탑재를 사용한 데이터 저장 및 액세스는 사용되지 않는 패턴이며 Databricks에서 권장하지 않습니다. 자세한 내용은 DBFS란?을 참조하세요.
작업 영역 스토리지 계정에 권한 있는 리소스 및 네트워크에서만 액세스를 제한하려면 작업 영역 스토리지 계정에 대한 방화벽 지원 사용 설정을(를) 참조하세요.