서버리스 Delta Live Tables 파이프라인 구성
이 문서에서는 서버리스 Delta Live Tables 파이프라인에 대한 구성을 설명합니다.
Databricks는 서버리스를 사용하여 새 파이프라인을 개발하는 것이 좋습니다. 일부 워크로드에는 클래식 컴퓨팅을 구성하거나 레거시 Hive 메타스토어로 작업해야 할 수 있습니다. 델타 라이브 테이블 파이프라인에 대한 컴퓨팅 구성 및 레거시 Hive 메타스토어와 함께 Delta Live Tables 파이프라인 사용을 참조하세요.
참고 항목
서버리스 파이프라인은 항상 Unity 카탈로그를 사용합니다. 델타 라이브 테이블용 Unity 카탈로그는 공개 미리 보기로 제공되며 몇 가지 제한 사항이 있습니다. Delta Live Tables 파이프라인에서 Unity 카탈로그 사용을 참조 하세요.
서버리스 파이프라인에 대한 JSON 구성의
clusters
개체에 컴퓨팅 설정을 수동으로 추가할 수 없습니다. 그렇게 하려고 하면 오류가 발생합니다.서버리스 DLT 파이프라인의 자격 및 사용 설정에 대한 자세한 내용은 서버리스 컴퓨팅 사용을 참조하세요.
서버리스 DLT 파이프라인과 Azure Private Link 연결을 사용해야 하는 경우 Databricks 담당자에게 문의하세요.
요구 사항
서버리스 파이프라인을 사용하려면 작업 영역에 Unity 카탈로그가 활성화되어 있어야 합니다.
작업 영역은 서버리스 사용 지역에 있어야 합니다.
서버리스 파이프라인에 권장되는 구성
Important
서버리스 파이프라인을 구성하는 데 클러스터 만들기 권한이 필요하지 않습니다. 기본적으로 모든 작업 영역 사용자는 서버리스 파이프라인을 사용할 수 있습니다.
서버리스 파이프라인은 Azure Databricks가 모든 인프라를 관리하므로 대부분의 구성 옵션을 제거합니다. 서버리스 파이프라인을 구성하려면 다음을 수행합니다.
- 사이드바에서 델타 라이브 테이블을 클릭합니다.
- 파이프라인 만들기를 클릭합니다.
- 고유한 파이프라인 이름을 제공합니다.
- 서버리스 옆의 확인란을 선택합니다.
- 파일 선택기를 사용하여 Notebook 및 작업 영역 파일을 소스 코드로 구성합니다.
- 소스 코드 자산을 하나 이상 추가해야 합니다.
- 소스 코드 추가 단추를 사용하여 소스 코드 자산을 추가합니다.
- 데이터를 게시할 카탈로그를 선택합니다.
- 카탈로그에서 스키마 를 선택합니다. 파이프라인에 정의된 모든 스트리밍 테이블 및 구체화된 뷰는 이 스키마에서 만들어집니다.
- 만들기를 클릭합니다.
이러한 권장 구성은 트리거 모드 및 현재 채널에서 실행되도록 구성된 새 파이프라인을 만듭니다. 이 구성은 개발 및 테스트를 비롯한 많은 사용 사례에 권장되며 일정에 따라 실행되어야 하는 프로덕션 워크로드에 적합합니다. 파이프라인 예약에 대한 자세한 내용은 작업에 대한 델타 라이브 테이블 파이프라인 작업을 참조 하세요.
Unity 카탈로그로 구성된 기존 파이프라인을 서버리스로 변환할 수도 있습니다. 서버리스를 사용하도록 기존 파이프라인 변환을 참조하세요.
기타 구성 고려 사항
서버리스 파이프라인에도 다음 구성 옵션을 사용할 수 있습니다.
- 프로덕션 환경에서 파이프라인을 실행할 때 연속 파이프라인 모드를 사용하도록 선택할 수 있습니다. 트리거된 파이프라인 모드와 연속 파이프라인 모드를 참조하세요.
- 성공 또는 실패 조건에 따라 전자 메일 업데이트에 대한 알림을 추가합니다. 파이프라인 이벤트에 대한 이메일 알림 추가를 참조하세요.
- 구성 필드를 사용하여 파이프라인에 대한 키-값 쌍을 설정합니다. 이러한 구성은 다음 두 가지 용도로 사용됩니다.
- 미리 보기 채널을 사용하여 보류 중인 Delta Live Tables 런타임 변경 내용 및 평가판 새 기능에 대해 파이프라인을 테스트합니다.
예산 정책
Important
이 기능은 공개 미리 보기 상태입니다.
예산 정책을 사용하면 조직에서 세분화된 청구 특성에 대해 서버리스 사용량에 사용자 지정 태그를 적용할 수 있습니다. 서버리스 확인란을 선택하면 파이프라인에 적용할 정책을 선택할 수 있는 예산 정책 설정이 나타납니다. 태그는 예산 정책에서 상속되며 작업 영역 관리자만 편집할 수 있습니다.
참고 항목
예산 정책이 할당된 후에는 기존 파이프라인에 정책 태그가 자동으로 지정되지 않습니다. 정책을 연결하려면 기존 파이프라인을 수동으로 업데이트해야 합니다.
예산 정책에 대한 자세한 내용은 예산 정책을 사용하는 특성 서버리스 사용을 참조하세요.
서버리스 파이프라인 기능
서버리스 파이프라인에는 구성 간소화 외에도 다음과 같은 기능이 있습니다.
- 구체화된 뷰에 대한 증분 새로 고침: 구체화된 뷰에 대한 업데이트는 가능하면 증분 방식으로 새로 고쳐집니다. 증분 새로 고침은 전체 다시 계산과 동일한 결과를 찾습니다. 결과를 증분 방식으로 계산할 수 없는 경우 업데이트에서 전체 새로 고침을 사용합니다. 구체화된 뷰는 증분 새로 고침을 참조 하세요.
- 스트림 파이프라인: 데이터 수집과 같은 스트리밍 데이터 워크로드의 사용률, 처리량 및 대기 시간을 개선하기 위해 마이크로배치가 파이프라인됩니다. 즉, 표준 Spark 구조적 스트리밍과 같이 순차적으로 마이크로배치를 실행하는 대신 서버리스 DLT 파이프라인은 마이크로배치를 동시에 실행하여 컴퓨팅 리소스 사용률을 향상합니다. 스트림 파이프라인은 서버리스 DLT 파이프라인에서 기본적으로 사용하도록 설정됩니다.
- 수직 자동 크기 조정: 서버리스 DLT 파이프라인은 메모리 부족 오류로 인해 실패하지 않고 Delta Live Tables 파이프라인을 실행할 수 있는 가장 비용 효율적인 인스턴스 유형을 자동으로 할당하여 Databricks에서 제공하는 수평 자동 크기 조정에 추가됩니다. 수직 자동 크기 조정이란?
수직 자동 크기 조정이란?
서버리스 DLT 파이프라인 수직 자동 크기 조정은 메모리 부족 오류로 인해 실패하지 않고 Delta Live Tables 파이프라인 업데이트를 실행하기 위해 가장 비용 효율적인 사용 가능한 인스턴스 유형을 자동으로 할당합니다. 수직 자동 크기 조정은 파이프라인 업데이트를 실행하기 위해 더 큰 인스턴스 유형이 필요할 때 확장되며, 더 작은 인스턴스 형식으로 업데이트를 실행할 수 있다고 결정할 때 축소됩니다. 수직 자동 크기 조정은 드라이버 노드, 작업자 노드 또는 드라이버 및 작업자 노드를 모두 확장하거나 축소해야 하는지 여부를 결정합니다.
세로 자동 크기 조정은 Databricks SQL 구체화된 뷰 및 스트리밍 테이블에서 사용하는 파이프라인을 포함하여 모든 서버리스 DLT 파이프라인에 사용됩니다.
수직 자동 크기 조정은 메모리 부족 오류로 인해 실패한 파이프라인 업데이트를 검색하여 작동합니다. 수직 자동 크기 조정은 실패한 업데이트에서 수집된 메모리 부족 데이터를 기반으로 이러한 오류가 검색될 때 더 큰 인스턴스 유형을 할당합니다. 프로덕션 모드에서는 새 컴퓨팅 리소스를 사용하는 새 업데이트가 자동으로 시작됩니다. 개발 모드에서는 새 업데이트를 수동으로 시작할 때 새 컴퓨팅 리소스가 사용됩니다.
세로 자동 크기 조정에서 할당된 인스턴스의 메모리가 지속적으로 활용도가 낮다는 것을 감지하면 다음 파이프라인 업데이트에 사용할 인스턴스 유형을 축소합니다.
서버리스를 사용하도록 기존 파이프라인 변환
Unity 카탈로그로 구성된 기존 파이프라인을 서버리스 파이프라인으로 변환할 수 있습니다. 다음 단계를 완료합니다.
- 사이드바에서 델타 라이브 테이블을 클릭합니다.
- 목록에서 원하는 파이프라인의 이름을 클릭합니다.
- 설정을 클릭합니다.
- 서버리스 옆의 확인란을 선택합니다.
- 저장을 클릭하고 시작합니다.
Important
서버리스를 사용하도록 설정하면 파이프라인에 대해 구성한 모든 컴퓨팅 설정이 제거됩니다. 파이프라인을 서버리스가 아닌 업데이트로 다시 전환하는 경우 원하는 컴퓨팅 설정을 파이프라인 구성으로 다시 구성해야 합니다.
서버리스 파이프라인의 DBU 사용량은 어떻게 찾을 수 있나요?
Azure Databricks 시스템 테이블의 일부인 청구 가능한 사용 현황 테이블을 쿼리하여 서버리스 DLT 파이프라인의 DBU 사용을 찾을 수 있습니다. 서버리스 DLT 파이프라인의 DBU 사용량은 무엇인가요?