다음을 통해 공유


고급 아키텍처

이 문서에서는 Azure와 함께 엔터프라이즈 아키텍처를 포함하여 Azure Databricks 아키텍처에 대한 개략적인 개요를 제공합니다.

Databricks 개체

Azure Databricks 계정은 조직 전체에서 Azure Databricks를 관리하는 데 사용하는 최상위 구문입니다. 계정 수준에서 다음을 관리합니다.

  • ID 및 액세스: 사용자, 그룹, 서비스 주체 및 사용자 프로비저닝
  • 작업 영역 관리: 여러 지역에서 작업 영역을 만들고, 업데이트하고, 삭제합니다.

  • Unity 카탈로그 메타스토어 관리: 메타스토어를 만들고 작업 영역에 연결합니다.

  • 사용 관리: 청구, 규정 준수 및 정책.

계정에는 여러 작업 영역 및 Unity 카탈로그 메타스토어가 포함될 수 있습니다.

  • 작업 영역 은 사용자가 수집, 대화형 탐색, 예약된 작업 및 ML 학습과 같은 컴퓨팅 워크로드를 실행하는 공동 작업 환경입니다.

  • Unity 카탈로그 메타스토터는 테이블 및 ML 모델과 같은 데이터 자산에 대한 중앙 거버넌스 시스템입니다. 메타스토어의 데이터를 3개 수준 네임스페이스로 구성합니다.

<catalog-name>.<schema-name>.<object-name>

메타스토어가 작업 영역에 연결됩니다. 단일 메타스토어를 동일한 지역의 여러 Azure Databricks 작업 영역에 연결하여 각 작업 영역에 동일한 데이터 보기를 제공할 수 있습니다. 데이터 액세스 제어는 연결된 모든 작업 영역에서 관리할 수 있습니다.

다이어그램: Databricks 개체 계층 구조

작업 영역 아키텍처

Azure Databricks는 제어 평면컴퓨팅 평면에서 작동합니다.

  • 컨트롤 플레인에는 Azure Databricks가 Azure Databricks 계정에서 관리하는 백 엔드 서비스가 포함됩니다. 컨트롤 플레인은 클라우드 계정이 아닌 Azure Databricks 계정에 있습니다. 웹 애플리케이션은 컨트롤 플레인에 있습니다.

  • 컴퓨팅 평면은 데이터가 처리되는 위치입니다. 사용 중인 컴퓨팅에 따라 두 가지 유형의 컴퓨팅 평면이 있습니다.

    • 서버리스 컴퓨팅의 경우 서버리스 컴퓨팅 리소스는 Azure Databricks 계정의 서버리스 컴퓨팅 평면 에서 실행됩니다.
    • 클래식 Azure Databricks 컴퓨팅의 경우 컴퓨팅 리소스는 클래식 컴퓨팅 평면이라고 하는 Azure 구독에 있습니다. 이는 Azure 구독의 네트워크 및 해당 리소스를 나타냅니다.

    클래식 컴퓨팅 및 서버리스 컴퓨팅에 대한 자세한 내용은 Compute를 참조하세요.

클래식 작업 영역 아키텍처

메모

클래식 작업 영역을 Azure Portal에서 하이브리드 작업 영역 이라고 합니다.

클래식 Azure Databricks 작업 영역에는 작업 영역 스토리지 계정이라고 하는 연결된 스토리지 계정이 있습니다. 작업 공간 저장 계정은 Azure 구독에 있습니다.

다음 다이어그램에서는 클래식 작업 영역에 대한 일반적인 Azure Databricks 아키텍처를 설명합니다.

다이어그램: Databricks 아키텍처

서버리스 작업 영역 아키텍처

서버리스 작업 영역의 작업 영역 스토리지는 작업 영역의 기본 스토리지에 저장됩니다. 클라우드 스토리지 계정에 연결하여 데이터에 액세스할 수도 있습니다. 다음 다이어그램에서는 서버리스 작업 영역에 대한 일반 아키텍처를 설명합니다.

도표: Databricks 아키텍처

서버리스 컴퓨팅 플레인

서버리스 컴퓨팅 플레인에서 Azure Databricks 컴퓨팅 리소스는 Azure Databricks 계정 내의 컴퓨팅 계층에서 실행됩니다. Azure Databricks는 작업 영역의 클래식 컴퓨팅 평면과 동일한 Azure 지역에 서버리스 컴퓨팅 평면을 만듭니다. 작업 영역을 만들 때 이 지역을 선택합니다.

서버리스 컴퓨팅 평면 내에서 고객 데이터를 보호하기 위해 서버리스 컴퓨팅은 워크스페이스의 네트워크 경계 내에서 실행되며, 다양한 보안 계층을 통해 서로 다른 Azure Databrick 고객 워크스페이스를 격리하고 동일한 고객의 클러스터 간에 추가 네트워크 제어 기능을 제공합니다.

서버리스 컴퓨팅 평면의 네트워킹에 대해 자세히 알아보려면 서버리스 컴퓨팅 평면 네트워킹을 참조하세요.

클래식 컴퓨트 플레인

기존 컴퓨팅 평면에서 Azure Databricks 컴퓨팅 리소스는 Azure 구독에서 실행됩니다. 새 컴퓨팅 리소스는 고객의 Azure 구독에 있는 각 작업 영역의 가상 네트워크 내에서 만들어집니다.

클래식 컴퓨팅 평면은 각 고객의 자체 Azure 구독에서 실행되므로 자연스럽게 격리됩니다. 클래식 컴퓨팅 평면의 네트워킹에 대한 자세한 내용은 클래식 컴퓨팅 평면 네트워킹을 참조하세요.

지역별 지원은 Azure Databricks 지역을 참조하세요.

작업 영역 스토리지

작업 영역 스토리지는 작업 영역 유형에 따라 다르게 처리됩니다. 작업 영역 형식에 대한 자세한 내용은 작업 영역 만들기를 참조하세요.

작업 영역 스토리지에는 작업 영역 파일 시스템 데이터와 작업 영역 시스템 데이터라는 두 가지 범주의 데이터가 포함됩니다. 둘 다 고유한 데이터 개체(예: Unity 카탈로그 테이블 및 볼륨)와는 별개입니다.

작업 영역 파일 시스템 데이터

작업 영역 파일 시스템은 사용자가 Azure Databricks UI를 통해 만들고 관리하는 자산을 저장합니다. 여기에는 다음이 포함됩니다.

  • Notebooks
  • SQL 쿼리 및 대시보드
  • 경고
  • 리포지토리(Git 리포지토리에 연결된 폴더)
  • 라이브러리(.whl, .jar)
  • Python 파일, YAML 구성 파일 및 기타 작은 파일

작업 영역 파일에 대한 자세한 내용은 작업 영역 파일이란?을 참조하세요. 작업 영역 자산의 전체 목록은 작업 영역 개체 소개를 참조하세요.

작업 영역 시스템 데이터

모든 Azure Databricks 작업 영역은 Azure Databricks 기능에서 내부적으로 생성된 시스템 데이터도 저장합니다. 이 데이터가 너무 커서 메모리 또는 데이터베이스에 저장할 수 없거나 단일 컴퓨팅 리소스의 수명 이후에도 유지되어야 합니다. 작업 영역 시스템 데이터의 예는 다음과 같습니다.

  • SQL 쿼리 결과 및 캐시된 쿼리 결과
  • 작업 실행 결과
  • 노트북 변경 사항
  • 관찰에 사용되는 SQL 쿼리 계획
  • 클러스터 로그

각 작업 영역 유형에 대해 작업 영역 스토리지를 구성하는 방법에 대한 자세한 내용은 아래 섹션을 참조하세요.

서버리스 작업 영역

서버리스 작업 영역은 내부 작업 영역 시스템 데이터 및 Unity 카탈로그 데이터 자산에 대한 완전 관리형 스토리지 위치인 기본 스토리지를 사용합니다. 서버리스 작업 영역은 자체 카탈로그, 테이블 및 기타 데이터 자산에 대한 클라우드 스토리지 위치에 연결하는 기능도 지원합니다. Databricks의 기본 스토리지를 참조하세요.

클래식 작업 영역

중요합니다

클라우드 계정에서 작업 영역 스토리지를 삭제하거나 수정하지 마세요. Azure Databricks 작업 영역은 올바른 작업을 위해 컨트롤 플레인 데이터베이스와 작업 영역 스토리지 모두에 따라 달라집니다. 작업 영역 스토리지가 삭제되면 작업 영역을 복구할 수 없습니다.

클래식 작업 영역에서 작업 영역 시스템 데이터는 DBFS는 무엇인가요?와 다릅니다. 둘 다 클래식 작업 영역의 동일한 클라우드 스토리지 계정에 상주할 수 있지만 서로 다른 용도로 사용됩니다. DBFS 루트는 사용자가 액세스할 수 있는 파일 시스템이지만 작업 영역 시스템 데이터는 Azure Databricks 기능에서 내부적으로 사용됩니다.

작업 영역 스토리지 계정에는 다음이 포함됩니다.

  • 작업 영역 시스템 데이터: Azure Databricks 기능에서 생성된 내부 데이터
  • Unity 카탈로그 작업 영역 카탈로그: 작업 영역이 자동으로 Unity 카탈로그에 사용하도록 설정된 경우 작업 영역 스토리지 계정에 기본 작업 영역 카탈로그가 포함됩니다. 작업 영역의 모든 사용자는 이 카탈로그의 기본 스키마에 자산을 만들 수 있습니다. Unity 카탈로그 시작을 참조하세요.
  • DBFS(레거시): DBFS 루트 및 DBFS 탑재는 레거시이며 작업 영역에서 사용하지 않도록 설정될 수 있습니다. DBFS (Databricks 파일 시스템)는 Azure Databricks 환경 내에서 dbfs:/ 네임스페이스 하에 있는 분산 파일 시스템입니다. DBFS 루트 및 DBFS 탑재는 모두 dbfs:/ 네임스페이스에 있습니다. DBFS 루트 또는 DBFS 탑재를 사용한 데이터 저장 및 액세스는 사용되지 않는 패턴이며 Databricks에서 권장하지 않습니다. 자세한 내용은 DBFS란?을 참조하세요.

작업 영역 스토리지 계정에 권한 있는 리소스 및 네트워크에서만 액세스를 제한하려면 작업 영역 스토리지 계정에 대한 방화벽 지원 사용 설정을(를) 참조하세요.