Microsoft Fabric의 Apache Spark 작업 영역 관리 설정

아티클
06/13/2024

적용 대상: Microsoft Fabric에서 데이터 엔지니어 및 데이터 과학

Microsoft Fabric 에서 작업 영역을 만들면 해당 작업 영역과 연결된 시작 풀 이 자동으로 만들어집니다. Microsoft Fabric에서 간소화된 설정을 사용하면 이러한 옵션이 백그라운드에서 처리되므로 노드 또는 컴퓨터 크기를 선택할 필요가 없습니다. 이 구성은 사용자가 컴퓨팅 설정에 대해 걱정할 필요 없이 많은 일반적인 시나리오에서 Apache Spark 작업을 시작하고 실행할 수 있도록 더 빠른(5-10초) Apache Spark 세션 시작 환경을 제공합니다. 특정 컴퓨팅 요구 사항이 있는 고급 시나리오의 경우 사용자는 사용자 지정 Apache Spark 풀을 만들고 성능 요구 사항에 따라 노드 크기를 조정할 수 있습니다.

작업 영역에서 Apache Spark 설정을 변경하려면 해당 작업 영역에 대한 관리자 역할이 있어야 합니다. 자세한 내용은 작업 영역의 역할을 참조 하세요.

작업 영역과 연결된 풀에 대한 Spark 설정을 관리하려면 다음을 수행합니다.

작업 영역의 작업 영역 설정으로 이동하고 데이터 엔지니어/과학 옵션을 선택하여 메뉴를 확장합니다.
왼쪽 메뉴에 Spark Compute 옵션이 표시됩니다.

참고 항목

기본 풀을 시작 풀에서 사용자 지정 Spark 풀로 변경하면 세션 시작 시간이 길어질 수 있습니다(~3분).

풀

작업 영역의 기본 풀

자동으로 생성된 시작 풀을 사용하거나 작업 영역에 대한 사용자 지정 풀을 만들 수 있습니다.

스타터 풀: 빠른 환경을 위해 미리 해시된 라이브 풀이 자동으로 생성됩니다. 이러한 클러스터는 중간 크기입니다. 시작 풀은 구매한 패브릭 용량 SKU에 따라 기본 구성으로 설정됩니다. 관리자는 Spark 워크로드 크기 조정 요구 사항에 따라 최대 노드 및 실행기를 사용자 지정할 수 있습니다. 자세한 내용은 시작 풀 구성을 참조 하세요.
사용자 지정 Spark 풀: Spark 작업 요구 사항에 따라 노드 크기를 조정하고, 자동 크기 조정하고, 실행기를 동적으로 할당할 수 있습니다. 사용자 지정 Spark 풀을 만들려면 용량 관리자가 용량 관리자 설정의 Spark Compute 섹션에서 사용자 지정된 작업 영역 풀 옵션을 사용하도록 설정해야 합니다.

참고 항목

사용자 지정된 작업 영역 풀에 대한 용량 수준 제어는 기본적으로 사용하도록 설정됩니다. 자세한 내용은 패브릭 용량에 대한 데이터 엔지니어링 및 데이터 과학 설정 구성 및 관리를 참조하세요.

관리자는 새 풀 옵션을 선택하여 컴퓨팅 요구 사항에 따라 사용자 지정 Spark 풀을 만들 수 있습니다.

Microsoft Fabric용 Apache Spark는 단일 노드 클러스터를 지원하므로 사용자가 최소 노드 구성을 1로 선택할 수 있습니다. 이 경우 드라이버와 실행기가 단일 노드에서 실행됩니다. 이러한 단일 노드 클러스터는 노드 오류가 발생할 경우 복원 가능한 고가용성을 제공하고 컴퓨팅 요구 사항이 더 작은 워크로드에 대해 더 나은 작업 안정성을 제공합니다. 사용자 지정 Spark 풀에 대해 자동 크기 조정 옵션을 사용하거나 사용하지 않도록 설정할 수도 있습니다. 자동 크기 조정을 사용하도록 설정하면 풀은 사용자가 지정한 최대 노드 제한 내에서 새 노드를 획득하고 성능 향상을 위해 작업 실행 후 사용 중지합니다.

성능 향상을 위해 데이터 볼륨에 따라 지정된 최대 바인딩 내의 실행기 수를 자동으로 풀에 동적으로 할당하는 옵션을 선택할 수도 있습니다.

패브릭용 Apache Spark 컴퓨팅에 대해 자세히 알아봅니다.

항목에 대한 컴퓨팅 구성 사용자 지정: 작업 영역 관리자는 사용자가 환경을 사용하여 Notebook, Spark 작업 정의와 같은 개별 항목에 대해 컴퓨팅 구성(드라이버/실행기 코어, 드라이버/실행기 메모리를 포함하는 세션 수준 속성)을 조정할 수 있습니다.

항목에 대한 컴퓨팅을 사용자 지정하는 스위치를 보여 주는 스크린샷

작업 영역 관리자가 설정을 해제하면 기본 풀 및 해당 컴퓨팅 구성이 작업 영역의 모든 환경에 사용됩니다.

환경

환경은 Spark 작업(Notebook, Spark 작업 정의)을 실행하기 위한 유연한 구성을 제공합니다. 환경에서 컴퓨팅 속성을 구성하고, 워크로드 요구 사항에 따라 다른 런타임을 선택하고, 라이브러리 패키지 종속성을 설정할 수 있습니다.

환경 탭에는 기본 환경을 설정하는 옵션이 있습니다. 작업 영역에 사용할 Spark 버전을 선택할 수 있습니다.

패브릭 작업 영역 관리자는 환경을 작업 영역 기본 환경으로 선택할 수 있습니다.

환경 드롭다운을 통해 새 항목을 만들 수도 있습니다.

기본 환경이 있는 옵션을 사용하지 않도록 설정하면 드롭다운 선택 영역에 나열된 사용 가능한 런타임 버전에서 패브릭 런타임 버전을 선택할 수 있습니다.

Apache Spark 런타임에 대해 자세히 알아봅니다.

높은 동시성

높은 동시성 모드를 사용하면 사용자가 패브릭 데이터 엔지니어링 및 데이터 과학 워크로드용 Apache Spark에서 동일한 Spark 세션을 공유할 수 있습니다. Notebook과 같은 항목은 Spark 세션을 실행에 사용하고 사용하도록 설정하면 사용자가 여러 Notebook에서 단일 Spark 세션을 공유할 수 있습니다.

패브릭용 Apache Spark의 높은 동시성에 대해 자세히 알아봅니다.

Machine Learning 모델 및 실험에 대한 자동 로깅

이제 관리자는 기계 학습 모델 및 실험에 자동 로깅을 사용하도록 설정할 수 있습니다. 이 옵션은 학습 중인 기계 학습 모델의 입력 매개 변수, 출력 메트릭 및 출력 항목의 값을 자동으로 캡처합니다. 자동 로깅에 대해 자세히 알아봅니다.

Fabric의 Apache Spark 런타임 - 개요, 버전 관리, 다중 런타임 지원 및 Delta Lake 프로토콜 업그레이드에 대해 알아봅니다.
Apache Spark 공개 설명서에서 자세히 알아보세요.
자주 묻는 질문에 대한 답변을 찾습니다. Apache Spark 작업 영역 관리 설정 FAQ.

다음을 통해 공유

Microsoft Fabric의 Apache Spark 작업 영역 관리 설정

풀

작업 영역의 기본 풀

환경

높은 동시성

Machine Learning 모델 및 실험에 대한 자동 로깅

피드백

피드백

추가 리소스

다음을 통해 공유

Microsoft Fabric의 Apache Spark 작업 영역 관리 설정

풀

작업 영역의 기본 풀

환경

높은 동시성

Machine Learning 모델 및 실험에 대한 자동 로깅

관련 콘텐츠

피드백

피드백

추가 리소스