本文旨在為計算創建提供清晰且具有明確觀點的指導。 透過為工作流程使用正確的計算類型,您可以提高效能並節省成本。
| 最佳做法 | 影響 | 文件 |
|---|---|---|
| 如果您不熟悉 Azure Databricks,請從使用所有一般用途的執行個體類型開始 | 為工作負載選取適當的執行個體類型可以提高效率。 | |
| 除非不支援您的必要功能,否則請使用標準存取模式 | 具有標準存取模式的計算可供多個使用者使用,並在用戶之間隔離數據。 | |
| 如果有足夠的可用性,請使用最新一代執行個體類型 | 最新一代執行個體類型提供最佳效能和最新功能。 | |
| 根據您需要工作負載運行的速度,設定隨需和臨時實例的平衡 | Spot 執行個體可節省成本,但如果回收 Spot 執行個體,可能會影響作業的總運行時間。 | |
| 根據工作負載執行的作業類型,選擇節點規模和工作者數量 | 例如,如果預期會有大量數據重排,則使用大型單一節點而不是多個較小的節點可能更有效率。 | |
| 在具有自動調整設定為 1-4 個工作節點的叢集上執行真空操作,其中每個工作節點有 8 個核心。 選取 8 到 32 個核心之間的驅動程式。 如果您發生記憶體不足 (OOM) 錯誤,請增加驅動程式的大小。 |
真空語句會在兩個階段發生,其中第二階段重度依賴驅動程式。 如果您未使用正確的叢集,此作業可能會導致速度變慢,而且可能無法成功。 | |
| 評估您的批次工作流程是否會受益於 Photon | Photon 可加快查詢速度並降低每個工作負載的總成本。 |