컴퓨팅 구성 참조

비고

이 글은 독자가 간단한 형식의 컴퓨팅 UI를 사용 중이라고 가정하고 작성되었습니다. 간단한 양식 업데이트에 대한 개요는 간단한 양식을 사용하여 컴퓨팅을 관리하세요.

이 문서에서는 새로운 다목적 또는 작업 컴퓨팅 리소스를 만들 때 사용할 수 있는 구성 설정을 설명합니다. 대부분의 사용자는 할당된 정책을 사용하여 컴퓨팅 리소스를 생성하는데, 이로 인해 구성 가능한 설정이 제한됩니다. UI에 특정 설정이 표시되지 않는 경우 선택한 정책에서 해당 설정을 구성할 수 없기 때문입니다.

워크로드에 대한 컴퓨팅 구성에 대한 권장 사항은 컴퓨팅 구성 권장 사항을 참조하세요.

간단한 컴퓨팅 양식

이 문서에서 설명하는 구성 및 관리 도구는 다목적 컴퓨팅과 작업 컴퓨팅에 모두 적용됩니다. 작업 컴퓨팅 구성에 대한 자세한 고려 사항은 작업에 대한 컴퓨팅 구성을 참조하세요.

새 다목적 컴퓨팅 리소스 만들기

새 다목적 컴퓨팅 리소스를 만들려면 다음을 수행합니다.

작업 영역 사이드바에서 컴퓨팅을 클릭합니다.
컴퓨팅 만들기 단추를 클릭합니다.
컴퓨팅 리소스를 구성합니다.
만들기를 클릭합니다.

새로운 컴퓨팅 리소스는 자동으로 가동되어 곧 사용할 수 있는 상태가 됩니다.

컴퓨팅 정책

정책은 사용자가 컴퓨팅 리소스를 만들 때 사용할 수 있는 구성 옵션을 제한하는 데 사용되는 규칙 집합입니다. 사용자에게 무제한 클러스터 만들기 권한이 없는 경우 부여된 정책을 사용하여 컴퓨팅 리소스만 만들 수 있습니다.

정책에 따라 컴퓨팅 리소스를 만들려면 정책 드롭다운 메뉴에서 정책을 선택합니다.

기본적으로 모든 사용자는 개인 컴퓨팅 정책에 액세스할 수 있으므로 단일 컴퓨터 컴퓨팅 리소스를 만들 수 있습니다. 개인용 컴퓨터나 추가 정책에 액세스해야 하는 경우 작업 영역 관리자에게 문의하세요.

성능 설정

다음 설정은 간단한 형식 컴퓨팅 UI의 성능 섹션 아래에 표시됩니다.

Databricks 런타임 버전
Photon 가속 사용
작업자 노드 유형
단일 노드 컴퓨팅
자동 크기 조정 사용
고급 성능 설정

Databricks 런타임 버전

Databricks 런타임은 컴퓨팅에서 실행되는 핵심 구성 요소 집합입니다. Databricks 런타임 버전 드롭다운 메뉴를 사용하여 런타임을 선택합니다. 특정 Databricks 런타임 버전에 대한 자세한 내용은 Databricks 런타임 릴리스 정보 버전 및 호환성을 참조하세요. 모든 버전에는 Apache Spark가 포함되어 있습니다. Databricks에서 권장하는 사항은 다음과 같습니다.

다목적 컴퓨팅의 경우 현재 버전을 사용하면 코드와 미리 로드된 패키지 간에 최신의 최적화 및 호환성을 유지할 수 있습니다.
운영 워크로드를 실행하는 작업 컴퓨팅의 경우 LTS(장기 지원) Databricks Runtime 버전을 사용하는 것이 좋습니다. LTS 버전을 사용하면 호환성 문제가 발생하지 않으며 업그레이드하기 전에 워크로드를 철저히 테스트할 수 있습니다.
데이터 과학 및 기계 학습 사용 사례의 경우 Databricks Runtime ML 버전을 고려해 보세요.

Photon 가속 사용

Photon은 Databricks Runtime 9.1 LTS 이상을 실행하는 컴퓨팅에서 기본적으로 사용됩니다.

Photon 가속을 사용하거나 사용하지 않도록 설정하려면 광자 가속 사용 확인란을 선택합니다. Photon에 대한 자세한 내용은 Photon이란?을 참조하세요.

작업자 노드 유형

컴퓨팅 리소스는 하나의 드라이버 노드 및 0개 이상의 작업자 노드로 구성됩니다. 기본적으로 드라이버 노드에서 작업자 노드와 동일한 인스턴스 유형을 사용하지만, 드라이버 및 작업자 노드에 대해 별도의 클라우드 공급자 인스턴스 유형을 선택할 수 있습니다. 드라이버 노드 설정은 고급 성능 섹션 아래에 있습니다.

다양한 인스턴스 유형 제품군은 메모리 집약적 또는 컴퓨팅 집약적 워크로드와 같은 다양한 사용 사례에 적합합니다. 작업자 또는 드라이버 노드로 사용할 풀을 선택할 수도 있습니다.

중요

스팟 인스턴스를 드라이버 유형으로 지정하여 풀을 사용하지 마세요. 주문형 드라이버 유형을 선택하여 드라이버가 회수되지 않도록 합니다. 풀에 연결을 참조하세요.

다중 노드 컴퓨팅에서 작업자 노드는 Spark 실행기와 컴퓨팅 리소스가 제대로 기능하는 데 필요한 다른 서비스를 실행합니다. Spark를 사용하여 워크로드를 배포하면 모든 분산 처리가 작업자 노드에서 수행됩니다. Azure Databricks 작업자 노드당 하나의 실행기를 실행합니다. 따라서 실행기와 작업자라는 용어는 Databricks 아키텍처의 컨텍스트에서 서로 교환적으로 사용됩니다.

팁

Spark 작업을 실행하려면 하나 이상의 작업자 노드가 필요합니다. 컴퓨팅 리소스에 작업자가 없는 경우 드라이버 노드에서 비 Spark 명령을 실행할 수 있지만 Spark 명령은 실패합니다.

유연한 노드 형식

작업 영역에 유연한 노드 형식이 사용하도록 설정된 경우 컴퓨팅 리소스에 유연한 노드 형식을 사용할 수 있습니다. 유연한 노드 유형을 사용하면 지정된 인스턴스 형식을 사용할 수 없는 경우 컴퓨팅 리소스가 호환되는 대체 인스턴스 형식으로 대체될 수 있습니다. 이 동작은 컴퓨팅을 시작하는 동안 용량 오류를 줄여 컴퓨팅 시작 안정성을 향상시킵니다. 유연한 노드 형식을 사용하여 컴퓨팅 시작 안정성 향상을 참조하세요.

작업자 노드 IP 주소

Azure Databricks 각각 두 개의 개인 IP 주소가 있는 작업자 노드를 시작합니다. 노드의 기본 개인 IP 주소는 Azure Databricks의 내부 트래픽을 처리합니다. 보조 개인 IP 주소는 클러스터 내 통신을 위해 Spark 컨테이너에서 사용됩니다. 이 모델을 사용하면 Azure Databricks 동일한 작업 영역의 여러 컴퓨팅 리소스 간에 격리를 제공할 수 있습니다.

GPU 인스턴스 유형

딥 러닝과 관련된 작업과 같이 고성능을 요구하는 계산에 까다로운 작업의 경우 Azure Databricks GPU(그래픽 처리 장치)로 가속화되는 컴퓨팅 리소스를 지원합니다. 자세한 내용은 GPU 사용 컴퓨팅을 참조하세요.

Azure 기밀 컴퓨팅용 VM

Azure 기밀 컴퓨팅 VM 유형은 클라우드 운영자를 포함하여 사용 중인 데이터에 대한 무단 액세스를 방지합니다. 이 VM 유형은 규제가 엄격한 산업과 지역은 물론, 클라우드에 중요한 데이터를 보유한 기업에 유용합니다. Azure 기밀 컴퓨팅에 대한 자세한 내용은 Azure 기밀 컴퓨팅 참조하세요.

Azure 기밀 컴퓨팅 VM을 사용하여 워크로드를 실행하려면 작업자 및 드라이버 노드 드롭다운의 DC 또는 EC 시리즈 VM 유형 중에서 선택합니다. Azure 기밀 VM 옵션 참조하세요.

단일 노드 컴퓨팅

단일 노드 확인란을 사용하면 단일 노드 컴퓨팅 리소스를 만들 수 있습니다.

단일 노드 컴퓨팅은 소량의 데이터 또는 단일 노드 기계 학습 라이브러리와 같은 비분산 워크로드를 사용하는 작업을 위한 것입니다. 분산된 워크로드가 있는 대규모 작업에는 다중 노드 컴퓨팅을 사용해야 합니다.

단일 노드 속성

단일 노드 컴퓨팅 자원에는 다음과 같은 속성이 있습니다.

Spark를 로컬로 실행합니다.
드라이버는 작업자 노드가 없는 상태에서 마스터와 작업자로서의 역할을 합니다.
컴퓨팅 리소스의 논리 코어당 1개의 실행기 스레드를 생성하고, 드라이버를 위해 코어 1개를 뺍니다.
모든 stderr, stdout 및 log4j 로그 출력을 드라이버 로그에 저장합니다.
다중 노드 컴퓨팅 리소스로 변환할 수 없습니다.

단일 또는 다중 노드 선택

단일 또는 다중 노드 컴퓨팅을 결정할 때 사용 사례를 고려하세요.

대규모 데이터 처리를 하면 단일 노드 컴퓨팅 리소스가 모두 사용됩니다. 이러한 워크로드의 경우 Databricks는 다중 노드 컴퓨팅을 사용하는 것을 권장합니다.
다중 노드 컴퓨팅 리소스는 0명의 작업자로 확장할 수 없습니다. 대신 단일 노드 컴퓨팅을 사용하세요.
단일 노드 컴퓨팅에서는 GPU 예약을 사용할 수 없습니다.
단일 노드 컴퓨팅에서 Spark는 UDT 열이 있는 Parquet 파일을 읽을 수 없습니다. 다음 오류 메시지가 표시됩니다.
```
The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
```
이 문제를 해결하려면 네이티브 Parquet 판독기를 사용하지 않도록 설정합니다.
```
spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
```

자동 크기 조정 사용

자동 크기 조정 사용이 확인되면 컴퓨팅 리소스에 대한 최소 및 최대 작업자 수를 제공할 수 있습니다. 그러면 Databricks가 작업을 실행하는 데 필요한 적절한 수의 작업자를 선택합니다.

컴퓨팅 리소스가 자동으로 크기 조정되는 최소 및 최대 작업자 수를 설정하려면 작업자 유형 드롭다운 옆에 있는 최소 및 최대 필드를 사용합니다.

자동 크기 조정을 사용하도록 설정하지 않으면 작업자 유형 드롭다운 옆에 있는 작업자 필드에 고정된 수의 작업자를 입력해야 합니다.

비고

컴퓨팅 리소스가 실행되면 컴퓨팅 세부 정보 페이지에 할당된 작업자 수가 표시됩니다. 할당된 작업자 수를 작업자 구성과 비교하고 필요에 따라 조정할 수 있습니다.

자동 크기 조정의 이점

자동 크기 조정을 사용하면 Azure Databricks 작업의 특성을 고려하여 작업자를 동적으로 재할당합니다. 파이프라인의 특정 부분은 다른 부분보다 계산적으로 더 까다로울 수 있으며, Databricks는 이러한 작업 단계에서 자동으로 추가 작업자를 추가합니다(더 이상 필요하지 않은 경우 제거).

자동 크기 조정을 사용하면 워크로드와 일치하도록 컴퓨팅을 프로비전할 필요가 없으므로 높은 사용률을 쉽게 달성할 수 있습니다. 특히 이는 시간이 지남에 따라 요구 사항이 변경되는 워크로드(예: 하루 중 데이터 세트 검색)에 적용되지만 프로비전 요구 사항을 알 수 없는 짧은 일회성 워크로드에도 적용될 수 있습니다. 따라서 자동 크기 조정에서 제공하는 두 가지 이점은 다음과 같습니다.

워크로드는 일정한 크기의 과소 프로비전된 컴퓨팅 리소스에 비해 더 빠르게 실행할 수 있습니다.
자동 크기 조정은 정적인 크기의 컴퓨팅 리소스에 비해 전반적인 비용을 줄일 수 있습니다.

컴퓨팅 리소스 및 워크로드의 일정한 크기에 따라 자동 크기 조정은 이러한 이점 중 하나 또는 둘 다를 동시에 제공합니다. 컴퓨팅 크기는 클라우드 공급자가 인스턴스를 종료할 때 선택한 최소 작업자 수 미만으로 낮아질 수 있습니다. 이 경우 Azure Databricks 최소 작업자 수를 유지하기 위해 인스턴스를 다시 프로비전하기 위해 지속적으로 다시 시도합니다.

비고

자동 크기 조정은 spark-submit 작업에 사용할 수 없습니다.

비고

구조화된 스트리밍 워크로드의 경우 컴퓨팅 자동 크기 조정에는 클러스터 크기를 스케일 다운하는 데 제한이 있습니다. Databricks는 스트리밍 워크로드에 대해 향상된 자동 크기 조정과 함께 Lakeflow Spark 선언적 파이프라인을 사용하는 것이 좋습니다. 자동 크기 조정을 사용하여 Lakeflow Spark 선언적 파이프라인의 클러스터 사용률 최적화를 참조하세요.

자동 크기 조정 동작 방법

프리미엄 플랜의 작업 영역에서는 최적화된 자동 크기 조정을 사용합니다. 표준 가격 책정 플랜의 작업 영역은 표준 자동 크기 조정을 사용합니다.

최적화된 자동 크기 조정에는 다음과 같은 특징이 있습니다.

최소에서 최대로 2단계로 스케일 업합니다
컴퓨팅 리소스가 유휴 상태가 아닌 경우에도 순서 섞기 파일 상태를 확인하여 스케일 다운할 수 있습니다.
현재 노드의 백분율에 따라 스케일 다운합니다.
작업 수행 중 컴퓨팅 리소스 활용이 지난 40초 동안 부족하다면 스케일 다운합니다.
다목적 컴퓨팅에서 컴퓨팅 리소스가 지난 150초 동안 미달 사용되면 스케일 다운합니다.
spark.databricks.aggressiveWindowDownS Spark 구성 속성은 컴퓨팅에서 스케일 다운을 결정하는 빈도를 초 단위로 지정합니다. 값을 늘리면 컴퓨팅이 더 느리게 스케일 다운합니다. 최댓값은 600입니다.

표준 자동 크기 조정은 표준 플랜 작업 영역에서 사용됩니다. 표준 자동 크기 조정에는 다음과 같은 특징이 있습니다.

8개의 노드를 추가하는 것으로 시작합니다. 그런 다음 최대치에 도달하는 데 필요한 만큼의 단계를 거치면서 기하급수적으로 확장됩니다.
노드의 90%가 10분 동안 사용되지 않고 컴퓨팅이 최소 30초 동안 유휴 상태이면 스케일 다운됩니다.
하나의 노드부터 시작하여 기하급수적으로 스케일 다운합니다.

경고

Databricks 자동 크기 조정을 사용하는 컴퓨팅 리소스에서 Apache Spark 동적 할당(spark.dynamicAllocation.enabled)을 사용하도록 설정하지 마세요. Databricks 자동 크기 조정은 플랫폼 수준에서 작업자 노드 및 실행기 수명 주기를 관리합니다. Spark 동적 할당을 병렬로 사용하도록 설정하면 크기 조정 결정이 충돌하여 실행기 변동, NODES_LOST 오류 및 절대 선택되지 않는 작업이 발생할 수 있습니다.

풀을 사용하여 자동 크기 조정

컴퓨팅 리소스를 풀에 연결하는 경우 다음 사항을 고려하세요.

요청된 컴퓨팅 크기가 풀 의 최소 유휴 인스턴스 수 보다 작거나 같은지 확인합니다. 더 큰 경우 컴퓨팅 시작 시간은 풀을 사용하지 않는 컴퓨팅과 동일합니다.

최대 컴퓨팅 크기가 풀의 최대 용량 보다 작거나 같은지 확인합니다. 더 크면 컴퓨팅 생성이 실패할 것입니다.

자동 크기 조정 예

자동 크기 조정을 위해 정적 컴퓨팅 리소스를 다시 구성하는 경우 Azure Databricks 즉시 최소 및 최대 범위 내에서 컴퓨팅 리소스의 크기를 조정한 다음 자동 크기 조정을 시작합니다. 예를 들어, 다음 테이블에서는 5~10개 노드 사이에서 자동으로 크기 조정되도록 컴퓨팅 리소스를 재구성하는 경우 특정 초기 크기의 컴퓨팅 리소스에서 수행되는 상황을 보여줍니다.

처음 크기	재구성 후 크기
6	6
12	10
3	5

고급 성능 설정

다음 설정은 간단한 형식 컴퓨팅 UI의 고급 성능 섹션 아래에 표시됩니다.

스폿 인스턴스
자동 종료
드라이버 유형

스폿 인스턴스

비용을 절감하려면 Spot 인스턴스 확인란을 선택하여 Azure 스폿 VM이라고도 하는 spot 인스턴스를 사용하도록 선택할 수 있습니다.

스폿 구성

첫 번째 인스턴스는 항상 주문형이고(드라이버 노드가 항상 주문형) 후속 인스턴스는 스폿 인스턴스가 됩니다.

사용 불가로 인해 인스턴스가 제거되는 경우 Azure Databricks 제거된 인스턴스를 대체하기 위해 새 스폿 인스턴스를 획득하려고 시도합니다. 스폿 인스턴스를 획득할 수 없는 경우 주문형 인스턴스가 배포되어 제거된 인스턴스를 대체합니다. 이 주문형 장애 복구는 완전히 획득되어 실행 중인 스폿 인스턴스에만 지원됩니다. 설정 중에 실패한 스폿 인스턴스는 자동으로 교체되지 않습니다.

또한 새 노드가 기존 컴퓨팅 리소스에 추가되면 Azure Databricks 해당 노드에 대한 스폿 인스턴스를 획득하려고 시도합니다.

자동 종료

고급 성능 섹션에서 컴퓨팅에 대한 자동 종료를 설정할 수 있습니다. 컴퓨팅 만들기 중에 컴퓨팅 리소스가 종료되기를 원하는 비활성 기간을 분 단위로 지정합니다.

컴퓨팅 리소스에서 현재 시간과 마지막 명령 실행 간의 차이가 지정된 비활성 기간보다 큰 경우 Azure Databricks 해당 컴퓨팅 리소스를 자동으로 종료합니다. 컴퓨팅 종료에 대한 자세한 내용은 컴퓨팅 종료를 참조하세요.

드라이버 유형

고급 성능 섹션에서 드라이버 유형을 선택할 수 있습니다. 드라이버 노드는 컴퓨팅 리소스에 연결된 모든 Notebook의 상태 정보를 유지 관리합니다. 또한 드라이버 노드는 SparkContext를 유지 관리하고, 컴퓨팅 리소스의 Notebook 또는 라이브러리에서 실행하는 모든 명령을 해석하고, Spark 실행기와 조정되는 Apache Spark 마스터를 실행합니다.

드라이버 노드 유형의 기본값은 작업자 노드 유형과 동일합니다. Spark 작업자에서 많은 데이터를 수집하고(collect()) 이를 Notebook에서 분석하려는 경우 더 많은 메모리가 있는 더 큰 드라이버 노드 유형을 선택할 수 있습니다.

팁

드라이버 노드는 연결된 Notebook의 모든 상태 정보를 유지 관리하므로 드라이버 노드에서 사용하지 않는 Notebook을 분리해야 합니다.

고급 설정

다음 설정은 간단한 양식 컴퓨팅 UI의 고급 섹션 아래에 표시됩니다.

액세스 모드
로컬 스토리지 자동 크기 조정 사용
로컬 디스크 암호화
Spark 환경 설정
컴퓨팅 로그 배달
컴퓨팅에 대한 SSH 액세스
환경 변수

액세스 모드

액세스 모드는 컴퓨팅 리소스를 사용할 수 있는 사용자와 컴퓨팅 리소스를 사용하여 액세스할 수 있는 데이터를 결정하는 보안 기능입니다. Azure Databricks 모든 컴퓨팅 리소스에는 액세스 모드가 있습니다. 액세스 모드 설정은 간단한 양식 컴퓨팅 UI의 고급 섹션에서 찾을 수 있습니다.

액세스 모드 선택은 기본적으로 자동 , 즉 선택한 Databricks 런타임에 따라 액세스 모드가 자동으로 선택됩니다. 기계 학습 런타임 또는 14.3보다 낮은 Databricks 런타임을 선택하지 않는 한 자동 기본값은 표준 으로 설정되며, 이 경우 Dedicated 가 사용됩니다.

Databricks는 필요한 기능이 지원되지 않는 한 표준 액세스 모드를 사용하는 것이 좋습니다.

액세스 모드	Description	지원되는 언어
스탠다드	사용자 간 데이터 격리를 통해 여러 사용자가 사용할 수 있습니다.	Python, SQL, Scala
Dedicated	단일 사용자 또는 그룹에 할당하고 사용할 수 있습니다.	Python, SQL, Scala, R

이러한 각 액세스 모드에 대한 기능 지원에 대한 자세한 내용은 표준 컴퓨팅 요구 사항 및 제한 사항 및 전용 컴퓨팅 요구 사항 및 제한을 참조하세요.

비고

Databricks Runtime 13.3 LTS 이상에서는 모든 액세스 모드에서 init 스크립트와 라이브러리가 지원됩니다. 요구 사항 및 지원 수준은 다양합니다. Init 스크립트를 설치할 수 있는 위치 및 컴퓨팅 범위 라이브러리를 참조하세요.

로컬 스토리지 자동 크기 조정 사용

특정 작업에 필요한 디스크 공간을 예측하기 어려울 수 있는 경우가 많습니다. 생성 시 컴퓨팅에 연결할 관리 디스크의 기가바이트 수를 예측할 필요가 없도록 하려면 Azure Databricks 모든 Azure Databricks 컴퓨팅에서 로컬 스토리지를 자동으로 크기 조정하도록 설정합니다.

자동 크기 조정 로컬 스토리지를 사용하면, Azure Databricks가 컴퓨팅의 Spark 작업자에서 사용 가능한 디스크 공간의 양을 모니터링합니다. 작업자가 디스크에서 너무 느리게 실행되기 시작하면 Databricks에서 디스크 공간이 부족하기 전에 새 관리 디스크를 작업자에 자동으로 연결합니다. 디스크는 가상 머신당 총 디스크 공간(가상 머신의 초기 로컬 스토리지 포함)의 최대 5TB까지 연결됩니다.

가상 머신에 연결된 관리 디스크는 가상 머신이 Azure 반환되는 경우에만 분리됩니다. 즉, 관리 디스크는 실행되는 컴퓨팅의 일부인 경우 가상 머신에서 분리되지 않습니다. 관리 디스크 사용량을 줄이려면 Azure Databricks는 자동 확장 컴퓨팅 또는 자동 종료가 구성된 컴퓨팅에서 이 기능을 사용할 것을 권장합니다.

로컬 디스크 암호화

중요

이 기능은 공개 미리 보기로 제공됩니다.

컴퓨팅을 실행하는 데 사용하는 일부 인스턴스 유형에는 로컬로 연결된 디스크가 있을 수 있습니다. Azure Databricks는 로컬에 연결된 이러한 디스크에 셔플 데이터나 휘발성 데이터를 저장할 수 있습니다. 로컬 디스크 암호화를 사용하도록 설정하면, 컴퓨팅 리소스의 로컬 디스크에 임시로 저장되는 셔플 데이터를 포함하여 모든 스토리지 유형의 미사용 데이터가 암호화되도록 할 수 있습니다.

중요

로컬 볼륨에서 암호화된 데이터 읽기 및 쓰기의 성능 영향으로 인해 워크로드가 더 느리게 실행될 수 있습니다.

로컬 디스크 암호화를 사용하도록 설정하면 Azure Databricks 각 컴퓨팅 노드에 고유하고 로컬 디스크에 저장된 모든 데이터를 암호화하는 데 사용되는 암호화 키를 로컬로 생성합니다. 키의 범위는 각 컴퓨팅 노드로 한정되며 컴퓨팅 노드 자체와 함께 제거됩니다. 수명 동안 키는 암호화 및 암호 해독을 위해 메모리에 상주하며 암호화된 상태로 디스크에 저장됩니다.

로컬 디스크 암호화를 사용하도록 설정하려면 클러스터 API를 사용해야 합니다. 컴퓨트를 생성하거나 편집할 때 enable_local_disk_encryption을(를) true로 설정합니다.

Spark 구성

Spark 작업을 미세 조정하려면 사용자 지정 Spark 구성 속성을 제공할 수 있습니다.

컴퓨팅 구성 페이지에서 고급 토글을 클릭합니다.
Spark 탭을 클릭합니다.
Spark 구성에서 구성 속성을 한 줄당 하나의 키-값 쌍으로 입력합니다.

클러스터 API를 사용하여 컴퓨팅을 구성할 때 클러스터 spark_conf 또는 업데이트 클러스터 API의 필드에 Spark 속성을 설정합니다.

컴퓨팅에 Spark 구성을 적용하기 위해 작업 영역 관리자는 컴퓨팅 정책을 사용할 수 있습니다.

비밀에서 Spark 구성 속성 검색

Databricks는 암호와 같은 중요한 정보를 일반 텍스트 대신 비밀 에 저장하는 것이 좋습니다. Spark 구성에서 비밀을 참조하려면 다음 구문을 사용합니다.

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

예를 들어 다음과 같이 password라는 Spark 구성 속성을 secrets/acme_app/password에 저장된 비밀 값으로 설정합니다.

spark.password {{secrets/acme-app/password}}

자세한 내용은 비밀 관리를 참조하세요.

컴퓨팅 로그 제공

다목적 또는 작업 컴퓨팅을 만들 때 Spark 드라이버, 작업자 노드 및 이벤트의 로그를 포함하여 클러스터 로그의 위치를 지정할 수 있습니다. 로그는 5분마다 배달되고 선택한 대상에 매시간 보관됩니다. Databricks는 컴퓨팅 리소스가 종료될 때까지 로그를 계속 제공합니다.

다음 위치 중 하나에 로그를 저장할 수 있습니다.

볼륨(권장): 로그를 Unity 카탈로그 볼륨 경로에 저장합니다. Unity 카탈로그 사용 컴퓨팅 리소스를 사용할 때 가장 안전한 권장 옵션입니다.

DBFS(레거시): DBFS(Databricks 파일 시스템) 경로에 로그를 저장합니다. 이 옵션은 DBFS 루트 및 탑재가 작업 영역에 대해 비활성화되지 않은 경우에만 사용할 수 있습니다. 기존 Azure Databricks 작업 공간에서 DBFS 루트 및 마운트에 대한 액세스 비활성화를 참조하세요.

로그 전달 위치를 구성하려면 다음을 수행합니다.

컴퓨팅 페이지에서 고급 토글을 클릭합니다.
로깅 탭을 클릭합니다.
대상 유형을 선택합니다.
로그 경로를 입력합니다.

로그를 저장하기 위해 Databricks는 컴퓨팅의 cluster_id이름을 따서 명명된 선택한 로그 경로에 하위 폴더를 만듭니다.

예를 들어 지정된 로그 경로가 /Volumes/catalog/schema/volume경우 06308418893214 대한 로그는 /Volumes/catalog/schema/volume/06308418893214전달됩니다.

비고

볼륨에 로그를 배달하는 것은 표준 액세스 모드 또는 사용자에게 할당된 전용 액세스 모드를 사용하는 Unity 카탈로그 사용 컴퓨팅에서만 지원됩니다. 그룹에 할당된 전용 액세스 모드는 지원되지 않습니다. 볼륨을 경로로 선택하는 경우 컴퓨팅 소유자 또는 볼륨에 할당된 READ VOLUME 사용자에게 볼륨에 대한 권한과 WRITE VOLUME 권한이 있는지 확인합니다. Unity 카탈로그 볼륨에 대한 권한을 참조하세요.

컴퓨팅 자원에 대한 SSH 액세스

보안상의 이유로 Azure Databricks SSH 포트는 기본적으로 닫힙니다. Spark 클러스터에 대한 SSH 액세스를 사용하도록 설정하려면 드라이버 노드에 대한 SSH를 참조하세요.

비고

SSH는 작업 영역이 사용자 고유의 Azure 가상 네트워크 배포된 경우에만 사용하도록 설정할 수 있습니다.

환경 변수

컴퓨팅 리소스에서 실행되는 init 스크립트 에서 액세스할 수 있는 사용자 지정 환경 변수를 구성합니다. 또한 Databricks는 init 스크립트에서 사용할 수 있는 미리 정의된 환경 변수 를 제공합니다. 이러한 미리 정의된 환경 변수는 재정의할 수 없습니다.

컴퓨팅 구성 페이지에서 고급을 클릭합니다.
Spark 탭을 클릭합니다.
환경 변수 필드에서 환경 변수를 설정합니다.

spark_env_vars의 필드를 사용하여 환경 변수를 설정할 수도 있습니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-27