이 문서는 컴퓨팅 생성을 위한 명확하고 의견 있는 지침을 제공하는 것을 목표로 합니다. 워크플로에 적합한 컴퓨팅 유형을 사용하면 성능을 개선하고 비용을 절감할 수 있습니다.
| 모범 사례 | 영향 | 문서 |
|---|---|---|
| Azure Databricks를 접하는 경우 일반적인 다목적 인스턴스 유형을 사용하여 시작합니다. | 워크로드에 적합한 인스턴스 유형을 선택하면 효율성이 높아질 수 있습니다. | |
| 필요한 기능이 지원되지 않는 한 표준 액세스 모드 사용 | 표준 액세스 모드를 사용하는 컴퓨팅은 사용자 간에 데이터 격리를 사용하는 여러 사용자가 사용할 수 있습니다. | |
| 충분한 가용성이 있는 경우 최신 세대 인스턴스 형식 사용 | 최신 세대의 인스턴스 유형은 최상의 성능과 최신 기능을 제공합니다. | |
| 워크로드를 실행하는 데 필요한 빈도에 따라 주문형 및 스폿 인스턴스 균형 설정 | 스폿 인스턴스는 비용을 절감하지만 스폿 인스턴스가 회수되는 경우 작업의 전체 런타임에 영향을 줄 수 있습니다. | |
| 워크로드가 수행하는 작업 유형에 따라 노드 크기 및 작업자 수를 선택합니다. | 예를 들어 순서 섞기가 많은 경우 여러 개의 작은 노드 대신 큰 단일 노드를 사용하는 것이 더 효율적일 수 있습니다. | |
| 각 작업자의 코어가 8개인 1~4명의 작업자에 대해 자동 크기 조정이 설정된 클러스터에서 진공을 실행합니다. 코어가 8~32개인 드라이버를 선택합니다. 메모리 부족(OOM) 오류가 발생하는 경우 드라이버의 크기를 늘리십시오. |
진공 문장은 두 단계로 이루어지며, 그 중 두 번째 단계는 드라이버 중심의 단계입니다. 올바른 크기의 클러스터를 사용하지 않으면 작업이 느려질 수 있으며 성공하지 못할 수 있습니다. | |
| 일괄 처리 워크플로가 Photon의 이점을 활용할 수 있는지 평가 | Photon은 더 빠른 쿼리를 제공하고 워크로드당 총 비용을 줄입니다. |