建立 Spark 叢集

已完成

您可以使用 Azure Databricks 工作區 UI 在 Azure Databricks 工作區中建立一或多個叢集。

Azure Databricks 工作區 UI 中 [建立叢集] 介面的螢幕擷取畫面。

建立叢集時,您可以指定組態設定,包括:

  • 叢集的名稱。
  • 叢集模式,可以是:
    • 標準:適合需要多個工作節點的單一使用者操作負載。
    • 高併行:適用於多個使用者將同時使用叢集的工作負載。
    • 單一節點:適用於小型工作負載或測試,其中只需要單一工作節點。
  • 要在叢集中使用的 Databricks Runtime 版本;會指定 Spark 的版本和個別元件,例如 Python、Scala,以及其他已安裝的元件。
  • 用於叢集中背景工作節點的虛擬機類型。
  • 叢集中背景工作節點的最小和最大數目。
  • 用於叢集中驅動程序節點的 VM 類型。
  • 叢集是否支援 自動調整 以動態調整叢集的大小。
  • 叢集在自動關閉之前可以保持閑置的時間長度。

Azure 如何管理叢集資源

當您建立 Azure Databricks 工作區時, Databricks 設備 會部署為訂用帳戶中的 Azure 資源。 當您在工作區中建立叢集時,您可以指定用於驅動程式和背景工作角色節點的虛擬機類型和大小,以及其他一些組態選項,但 Azure Databricks 會管理叢集所有其他層面。

Databricks 設備會部署至 Azure 中,做為訂用帳戶內的 受控資源群組 。 此資源群組包含叢集的驅動程式和背景工作 VM,以及其他必要資源,包括虛擬網路、安全組和記憶體帳戶。 叢集的所有元數據,例如排程工作,都會儲存在具有異地復寫的 Azure 資料庫中,以進行容錯。

Azure Databricks 會分割成兩個主要平面: 控制平面,其中包含 Microsoft 所管理的後端服務 (例如 Web UI),以及計算 平面,您的資料工作負載會執行其中。 計算有兩種變體:傳統計算,它使用您自己的 Azure 訂用帳戶和虛擬網路 (在您的訂用帳戶內提供隔離),以及無伺服器計算,它在 Databricks 的受控環境中執行,但仍位於與工作區相同的 Azure 區域中,並具有網路和安全性控制來隔離客戶之間。 每個工作區在訂用帳戶中都有一個儲存體帳戶,其中包含系統資料 (筆記本、記錄、作業中繼資料)、分散式檔案系統 (DBFS) 和目錄資產 (如果您已啟用 Unity 目錄),以及網路、防火牆和存取的其他控制項,以確保安全性和適當的隔離。

Azure Databricks 架構的圖表。

備註

您也可以選擇將叢集連結至閑置節點 區,以減少叢集啟動時間。 如需詳細資訊,請參閱 Azure Databricks 檔中的集區