在 Azure Databricks 上使用 XGBoost
本文提供在 Azure Databricks 中使用 XGBoost 定型機器學習模型的範例。 適用于 機器學習 的 Databricks Runtime 包含適用于 Python 和 Scala 的 XGBoost 程式庫。 您可以在個別電腦上或以分散式方式定型 XGBoost 模型。
在單一節點上定型 XGBoost 模型
您可以使用 Python xgboost
套件來定型模型。 此套件僅支援單一節點工作負載。 若要定型 PySpark ML 管線並利用分散式定型,請參閱 XGBoost 模型的分散式定型 。
XGBoost Python 筆記本
XGBoost 模型的分散式定型
針對 XGBoost 模型的分散式定型,Databricks 會根據 xgboost
套件包含 PySpark 估算器。 Databricks 也包含 Scala 套件 xgboost-4j
。 如需詳細資料和範例筆記本,請參閱下列內容:
- 使用 xgboost.spark 的 XGBoost 模型分散式定型 (Databricks Runtime 12.0 ML 和更新版本)
- 使用 sparkdl.xgboost 的 XGBoost 模型分散式定型 (從 Databricks Runtime 12.0 ML 開始已被取代)
- 使用 Scala 的 XGBoost 模型的分散式定型
在 Azure Databricks 上安裝 XGBoost
如果您需要在 Databricks Runtime 上安裝 XGBoost,或使用與 Databricks Runtime ML 預先安裝的版本不同,請遵循這些指示。
在 Databricks Runtime ML 上安裝 XGBoost
XGBoost 包含在 Databricks Runtime ML 中。 您可以在 Databricks Runtime ML 中使用這些程式庫,而不需要安裝任何套件。
如需您在 Databricks Runtime ML 版本中安裝的 XGBoost 版本,請參閱 版本資訊 。 若要在 Databricks Runtime ML 中安裝其他 Python 版本,請將 XGBoost 安裝為 Databricks PyPI 程式庫 。 將它指定為下列專案,並將 取代 <xgboost version>
為所需的版本。
xgboost==<xgboost version>
在 Databricks Runtime 上安裝 XGBoost
Python 套件 :在筆記本資料格中執行下列命令:
%pip install xgboost
若要安裝特定版本,請將 取代 <xgboost version>
為所需的版本:
%pip install xgboost==<xgboost version>
- Scala/JAVA 套件 :以 Spark 套件名稱
xgboost-linux64
安裝為 Databricks 程式庫 。