分享方式:


Databricks Runtime for Machine Learning

Databricks Runtime for Machine Learning (Databricks Runtime ML) 可使用預先建置的機器學習和深度學習基礎結構 (包括最常見的 ML 和 DL 程式庫) 自動建立叢集。 如需每個 Databricks Runtime ML 版本中的程式庫的完整清單,請參閱版本資訊

注意

若要存取 Unity Catalog 中的機器學習工作流程資料,叢集的存取模式必須是單一使用者 (已指派)。 共用叢集與 Databricks Runtime for Machine Learning 不相容。 此外,TableACLs 叢集spark.databricks.pyspark.enableProcessIsolation config 設定為 true 的叢集不支援 Databricks Runtime ML。

使用 Databricks Runtime ML 建立叢集

當您建立叢集時,從 [Databricks Runtime 版本] 下拉式功能表中選取 Databricks Runtime ML 版本。 CPU 和已啟用 GPU 的 ML 執行階段都可使用。

選取 Databricks Runtime ML

如果您從筆記本中的下拉式功能表中選取叢集,Databricks Runtime 版本會出現在叢集名稱右側:

檢視 Databricks Runtime ML 版本

如果您選取已啟用 GPU 的 ML 執行階段,系統會提示您選取相容的驅動程式類型背景工作角色類型。 不相容的執行個體類型會在下拉式功能表中呈現灰色。 已啟用 GPU 的執行個體類型列在 [GPU 加速] 標籤下。 如需有關建立 Azure Databricks GPU 叢集的資訊,請參閱已啟用 GPU 的計算。 Databricks Runtime ML 包含 GPU 硬體驅動程式和 NVIDIA 程式庫,例如 CUDA。

Photon 和 Databricks Runtime ML

當您建立執行 Databricks Runtime 15.2 ML 或更新版本的 CPU 叢集時,您可以選擇啟用 Photon。 Photon 使用 Spark SQL、Spark DataFrame、特徵工程、GraphFrame 和 xgboost4j 改善應用程式的效能。 預期不會改善使用 Spark RDD、Pandas UDF 和非 JVM 語言的應用程式 (例如 Python) 的效能。 因此,XGBoost、PyTorch 和 TensorFlow 等 Python 套件不會因 Photon 而得到改善。

Spark RDD API 和 Spark MLlib 與 Photon 的相容性有限。 使用 Spark RDD 或 Spark MLlib 處理大型資料集時,可能會遇到 Spark 記憶體問題。 請參閱 Spark 記憶體問題

Databricks Runtime ML 中包含的程式庫

Databricks Runtime ML 包含各種熱門 ML 程式庫。 這些程式庫隨著每個版本的發佈而更新,以包含新功能和修正。

Databricks 已將支援的程式庫子集指定為最上層程式庫。 對於這些程式庫,Databricks 會提供更快的更新節奏,並隨著每個執行階段版本更新至最新套件版本 (禁止相依性衝突)。 Databricks 也提供最上層程式庫的進階支援、測試和內嵌最佳化。

如需最上層和其他所提供程式庫的完整清單,請參閱 Databricks Runtime ML 的版本資訊

您可以安裝其他程式庫,以為您的筆記本或叢集建立自訂環境。