이 페이지에는 Lakeflow Spark 선언적 파이프라인에 대한 클래식 컴퓨팅을 구성하는 지침이 포함되어 있습니다. JSON 스키마에 대한 참조는 clusters의 정의를 참조 하세요.
클래식 컴퓨팅에서 실행되는 파이프라인을 만들려면 먼저 사용자가 무제한 생성 권한 또는 컴퓨팅 정책에 대한 액세스 권한으로 클래식 컴퓨팅을 배포할 수 있는 권한이 있어야 합니다. 서버리스 파이프라인에는 컴퓨팅 생성 권한이 필요하지 않습니다. 기본적으로 모든 작업 영역 사용자는 서버리스 파이프라인을 사용할 수 있습니다.
비고
Lakeflow Spark 선언적 파이프라인 런타임은 파이프라인 컴퓨팅의 수명 주기를 관리하고 사용자 지정 버전의 Databricks Runtime을 실행하므로 Spark 버전 또는 클러스터 이름과 같은 파이프라인 구성에서 일부 컴퓨팅 설정을 수동으로 설정할 수 없습니다. 사용자가 설정할 수 있는 아닌클러스터 특성을 참조하세요.
** 파이프라인용 컴퓨팅 리소스 선택
Lakeflow 파이프라인 편집기에서 파이프라인에 대한 클래식 컴퓨팅을 구성하려면 다음을 수행합니다.
- 설정을 클릭합니다.
- 파이프라인 설정의 컴퓨팅 섹션에서
을 클릭합니다. 편집합니다.
- 이 옵션을 선택하면 서버리스의 선택을 취소합니다.
- 컴퓨팅 설정을 변경한 다음 저장을 클릭합니다.
이렇게 하면 클래식 컴퓨팅을 사용하도록 파이프라인이 구성되고 아래 설명된 대로 컴퓨팅 설정을 편집할 수 있습니다.
Lakeflow 파이프라인 편집기에 대한 자세한 내용은 Lakeflow 파이프라인 편집 기를 사용하여 ETL 파이프라인 개발 및 디버그를 참조하세요.
컴퓨팅 정책 선택
작업 영역 관리자는 사용자에게 파이프라인에 대한 클래식 컴퓨팅 리소스에 대한 액세스를 제공하도록 컴퓨팅 정책을 구성할 수 있습니다. 컴퓨팅 정책은 선택 사항입니다. 필요한 컴퓨팅 권한이 없는 경우 작업 영역 관리자에게 문의하세요. Lakeflow Spark 선언적 파이프라인 컴퓨팅에 대한 제한 정의를 참조하세요.
Pipelines API를 사용하는 경우 컴퓨팅 정책 기본값이 올바르게 적용되었는지 확인하려면 정의에 "apply_policy_default_values": true 설정합니다clusters.
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
컴퓨팅 태그 구성
파이프라인의 클래식 컴퓨팅 리소스에 사용자 지정 태그를 추가할 수 있습니다. 태그를 사용하면 조직의 다양한 그룹에서 사용하는 컴퓨팅 리소스의 비용을 모니터링할 수 있습니다. Databricks는 이러한 태그를 클라우드 리소스 및 사용량 시스템 테이블에 기록된 사용 현황 로그에 적용합니다. 클러스터 태그 UI 설정을 사용하거나 파이프라인의 JSON 구성을 편집하여 태그를 추가할 수 있습니다.
파이프라인을 실행할 인스턴스 유형 선택
기본적으로 Lakeflow Spark 선언적 파이프라인은 파이프라인의 드라이버 및 작업자 노드에 대한 인스턴스 유형을 선택합니다. 필요에 따라 인스턴스 유형을 구성할 수 있습니다. 예를 들어 파이프라인 성능을 향상시키거나 파이프라인을 실행할 때 메모리 문제를 해결하려면 인스턴스 유형을 선택합니다.
Lakeflow 파이프라인 편집기에서 파이프라인을 만들거나 편집할 때 인스턴스 유형을 구성하려면 다음을 수행합니다.
- 설정 단추를 클릭합니다.
- 파이프라인 설정의 컴퓨팅 섹션에서
을 클릭합니다.
- 고급 설정 섹션에서 파이프라인에 대한 작업자 유형 및 드라이버 유형 인스턴스 유형을 선택합니다.
업데이트 및 유지 관리 클러스터에 대한 별도의 설정 구성
각 선언적 파이프라인에는 파이프라인 업데이트를 처리하는 업데이트 클러스터와 일상적인 유지 관리 작업( 예측 최적화 포함)을 실행하는 유지 관리 클러스터라는 두 개의 연결된 컴퓨팅 리소스가 있습니다. 기본적으로 컴퓨팅 구성은 두 클러스터에 모두 적용됩니다. 두 클러스터에 대해 동일한 설정을 사용하면 스토리지 위치에 대한 데이터 액세스 자격 증명과 같은 필수 구성이 유지 관리 클러스터에 적용되도록 하여 유지 관리 실행의 안정성을 향상시킵니다.
두 클러스터 중 하나에만 설정을 적용하려면 설정 JSON 개체에 필드를 추가 label 합니다. 필드에는 다음 세 가지 가능한 값이 label 있습니다.
-
maintenance: 유지 관리 클러스터에만 설정을 적용합니다. -
updates: 업데이트 클러스터에만 설정을 적용합니다. -
default: 업데이트 및 유지 관리 클러스터 모두에 설정을 적용합니다. 필드를 생략하면label기본값입니다.
충돌하는 설정이 있는 경우 또는 updates 레이블이 있는 maintenance 설정은 레이블로 정의된 설정을 재정의 default 합니다.
비고
일일 유지 관리 클러스터는 특정 경우에만 사용됩니다.
- Hive 메타스토어에 저장된 파이프라인입니다.
- 서버리스 컴퓨팅 서비스 약관을 수락하지 않은 작업 영역의 파이프라인입니다. 약관을 수락하는 데 도움이 필요한 경우 Databricks 담당자에게 문의하세요.
- 서버리스에 대한 프라이빗 링크를 올바르게 구성하지 않은 작업 영역의 파이프라인입니다.
예: 업데이트 클러스터에 대한 설정 정의
다음 예제에서는 updates 클러스터의 구성에만 추가되는 Spark 구성 매개 변수를 정의합니다.
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
예: 업데이트 클러스터에 대한 인스턴스 유형 구성
maintenance 클러스터에 불필요한 리소스를 할당하지 않도록 하기 위해 이 예제에서는 updates 레이블을 사용하여 updates 클러스터에 대해서만 인스턴스 유형을 설정합니다.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"...": "..."
}
]
}
컴퓨팅 종료 지연
클러스터 종료 동작을 제어하려면 개발 또는 프로덕션 모드를 사용하거나 파이프라인 구성에서 pipelines.clusterShutdown.delay 설정을 사용할 수 있습니다. 다음 예제에서는 pipelines.clusterShutdown.delay 값을 60초로 설정합니다.
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
production 모드를 사용하도록 설정하면 pipelines.clusterShutdown.delay 기본값이 0 seconds.
development 모드를 사용하도록 설정하면 기본값이 2 hours.
비고
Lakeflow Spark 선언적 파이프라인 컴퓨팅 리소스는 사용하지 않을 때 자동으로 종료되므로 설정하는 autotermination_minutes컴퓨팅 정책을 사용할 수 없습니다. 이로 인해 오류가 발생합니다.
단일 노드 컴퓨팅 만들기
단일 노드 컴퓨팅에는 마스터 및 작업자 역할을 하는 드라이버 노드가 있습니다. 소량의 데이터를 사용하거나 배포되지 않는 워크로드용입니다.
단일 노드 컴퓨팅을 만들려면 0으로 설정합니다 num_workers . 다음은 그 예입니다.
{
"clusters": [
{
"num_workers": 0
}
]
}