이 문서에서는 서버리스 파이프라인에 대한 구성을 설명합니다.
Databricks는 서버리스를 사용하여 새 파이프라인을 개발하는 것이 좋습니다. 일부 워크로드에는 클래식 컴퓨팅을 구성하거나 레거시 Hive 메타스토어로 작업해야 할 수 있습니다. 파이프라인에 대한 클래식 컴퓨팅 구성 및 레거시 Hive 메타스토어와 함께 Lakeflow Spark 선언적 파이프라인 사용을 참조하세요.
비고
- 서버리스 파이프라인은 항상 Unity 카탈로그를 사용합니다. 파이프라인에서 Unity 카탈로그 사용을 참조하세요.
- 서버리스 컴퓨팅 제한 사항은 Serverless 컴퓨팅 제한을 참조하세요.
- 서버리스 파이프라인에 대한 JSON 구성의
clusters개체에 컴퓨팅 설정을 수동으로 추가할 수 없습니다. 이렇게 시도하면 오류가 발생합니다.
- 서버리스 Lakeflow Spark 선언적 파이프라인과 Azure Private Link 연결을 사용해야 하는 경우 Databricks 담당자에게 문의하세요.
요구 사항
- 서버리스 파이프라인을 사용하려면 작업 영역에 Unity 카탈로그가 활성화되어 있어야 합니다.
- 작업 영역은 서버리스가 사용 가능한 지역에 있어야 합니다.
서버리스 파이프라인에 권장되는 구성
중요합니다
서버리스 파이프라인을 구성하는 데 클러스터 만들기 권한이 필요하지 않습니다. 기본적으로 모든 작업 영역 사용자는 서버리스 파이프라인을 사용할 수 있습니다.
서버리스 파이프라인은 Azure Databricks가 모든 인프라를 관리하므로 대부분의 구성 옵션을 제거합니다. 새 파이프라인을 만들 때 기본값은 서버리스를 사용하는 것입니다. 서버리스 파이프라인을 구성하는 방법을 알아보려면 파이프라인 구성을 참조하세요.
Unity 카탈로그로 구성된 기존 파이프라인을 서버리스로 변환할 수도 있습니다. 서버리스 사용하도록 기존 파이프라인 변환참조하세요.
기타 구성 고려 사항
서버리스 파이프라인에도 다음 구성 옵션을 사용할 수 있습니다.
- 프로덕션 환경에서 파이프라인을 실행할 때 연속 파이프라인 모드를 사용하도록 선택할 수 있습니다. 트리거된 대 연속 파이프라인 모드를 참조하세요.
- 성공 또는 실패 조건에 따라 전자 메일 업데이트에 대한 알림 추가합니다. 파이프라인 이벤트에 대한 이메일 알림 추가를 참조하세요.
-
구성 필드를 사용하여 파이프라인에 대한 키-값 쌍을 설정합니다. 이러한 구성은 다음 두 가지 용도로 사용됩니다.
- 소스 코드에서 참조할 수 있는 임의의 매개 변수를 설정합니다. 파이프라인에서 매개 변수 사용을 참조하세요.
- 파이프라인 설정 및 Spark 구성을 구성합니다. 파이프라인 속성 참조를 참조하세요.
- 미리 보기 채널을 사용하여 보류 중인 Lakeflow Spark 선언적 파이프라인 런타임 변경 내용 및 평가판 새 기능에 대해 파이프라인을 테스트합니다.
서버리스 예산 정책
중요합니다
이 기능은 공개 미리보기 단계에 있습니다.
서버리스 예산 정책을 사용하면 조직에서 세분화된 청구 특성에 대해 서버리스 사용량에 사용자 지정 태그를 적용할 수 있습니다. 서버리스 확인란을 선택하면 파이프라인에 적용할 정책을 선택할 수 있는 예산 정책 설정이 나타납니다. 태그는 서버리스 예산 정책에서 상속되며 작업 영역 관리자만 편집할 수 있습니다.
비고
서버리스 예산 정책이 할당된 후에는 기존 파이프라인에 정책 태그가 자동으로 지정되지 않습니다. 정책을 연결하려면 기존 파이프라인을 수동으로 업데이트해야 합니다.
서버리스 예산 정책에 대한 자세한 내용은 서버리스 예산 정책에서의 특성 사용량을 참조하세요.
성능 모드 선택
트리거된 파이프라인의 경우 파이프라인 스케줄러에서 성능 최적화 설정을 사용하여 서버리스 컴퓨팅 성능 모드를 선택할 수 있습니다. 이 설정을 사용하지 않도록 설정하면 파이프라인은 표준 성능 모드를 사용합니다. 표준 성능 모드는 약간 더 높은 시작 대기 시간이 허용되는 워크로드에 대한 비용을 절감하도록 설계되었습니다. 표준 성능 모드를 사용하는 서버리스 워크로드는 일반적으로 컴퓨팅 가용성 및 최적화된 일정에 따라 트리거된 후 4~6분 이내에 시작됩니다.
성능 최적화를 사용하도록 설정하면 파이프라인이 성능에 최적화되어 시간이 중요한 워크로드의 시작 및 실행 속도가 빨라집니다.
두 모드 모두 동일한 SKU를 사용하지만 표준 성능 모드는 낮은 컴퓨팅 사용량을 반영하여 더 적은 DTU를 사용합니다.
비고
연속 파이프라인에서 표준 성능 모드를 사용하려면 Databricks 계정 팀에 문의하세요.
서버리스 파이프라인 기능
서버리스 파이프라인에는 구성 간소화 외에도 다음과 같은 기능이 있습니다.
- 구체화된 뷰에 대한 증분 새로 고침: 구체화된 뷰에 대한 업데이트는 가능하면 증분 방식으로 새로 고쳐집니다. 증분 새로 고침은 전체 다시 계산과 동일한 결과를 산출합니다. 결과를 증분 방식으로 계산할 수 없는 경우 업데이트에서 전체 새로 고침을 사용합니다. 증분 새로 고침 에 대한 구체화된 뷰을 참조하세요.
- 스트림 파이프라이닝: 데이터 수집과 같은 스트리밍 데이터 워크로드의 사용률, 처리량 및 지연 시간을 개선하기 위해 마이크로배치를 파이프라인 처리합니다 . 즉, 표준 Spark 구조적 스트리밍과 같이 순차적으로 마이크로배치를 실행하는 대신 서버리스 Lakeflow Spark 선언적 파이프라인은 마이크로배치를 동시에 실행하여 컴퓨팅 리소스 사용률을 향상합니다. 스트림 파이프라인은 서버리스 파이프라인에서 기본적으로 사용하도록 설정됩니다.
- 수직 자동 크기 조정: 서버리스 Lakeflow Spark 선언적 파이프라인은 메모리 부족 오류로 인해 실패하지 않고 파이프라인을 실행할 수 있는 가장 비용 효율적인 인스턴스 유형을 자동으로 할당하여 Databricks에서 제공하는 수평 자동 크기 조정에 추가됩니다. 수직 자동 크기 조정이란?
서버리스를 사용하도록 기존 파이프라인 변환
Unity 카탈로그로 구성된 기존 파이프라인을 서버리스 파이프라인으로 변환할 수 있습니다. 다음 단계를 완료합니다.
- Azure Databricks 작업 영역의 사이드바에서 작업 및 파이프라인을 클릭합니다.
- 파이프라인의 이름을 클릭합니다.
- 설정을 클릭합니다.
- 오른쪽 사이드바의 컴퓨팅 아래에서
을 클릭합니다.
- 서버리스옆의 확인란을 선택합니다.
- 저장을 클릭합니다.
중요합니다
서버리스를 사용하도록 설정하면 파이프라인에 대해 구성한 모든 컴퓨팅 설정이 제거됩니다. 파이프라인을 서버리스가 아닌 업데이트로 다시 전환하는 경우 원하는 컴퓨팅 설정을 파이프라인 구성으로 다시 구성해야 합니다.
서버리스 파이프라인의 DBU 사용량은 어떻게 찾을 수 있나요?
Azure Databricks 시스템 테이블의 일부인 청구 가능한 사용 테이블을 쿼리하여 서버리스 Lakeflow Spark 선언적 파이프라인의 DBU 사용량을 찾을 수 있습니다. 서버리스 파이프라인의 DBU 사용량이 무엇인지 확인하세요.