在 Azure Databricks 上使用 XGBoost

本文提供在 Azure Databricks 中使用 XGBoost 定型機器學習模型的範例。 適用于 機器學習 的 Databricks Runtime 包含適用于 Python 和 Scala 的 XGBoost 程式庫。 您可以在個別電腦上或以分散式方式定型 XGBoost 模型。

在單一節點上定型 XGBoost 模型

您可以使用 Python xgboost 套件來定型模型。 此套件僅支援單一節點工作負載。 若要定型 PySpark ML 管線並利用分散式定型,請參閱 XGBoost 模型的分散式定型

XGBoost Python 筆記本

取得筆記本

XGBoost 模型的分散式定型

針對 XGBoost 模型的分散式定型,Databricks 會根據 xgboost 套件包含 PySpark 估算器。 Databricks 也包含 Scala 套件 xgboost-4j 。 如需詳細資料和範例筆記本,請參閱下列內容:

在 Azure Databricks 上安裝 XGBoost

如果您需要在 Databricks Runtime 上安裝 XGBoost,或使用與 Databricks Runtime ML 預先安裝的版本不同,請遵循這些指示。

在 Databricks Runtime ML 上安裝 XGBoost

XGBoost 包含在 Databricks Runtime ML 中。 您可以在 Databricks Runtime ML 中使用這些程式庫,而不需要安裝任何套件。

如需您在 Databricks Runtime ML 版本中安裝的 XGBoost 版本,請參閱 版本資訊 。 若要在 Databricks Runtime ML 中安裝其他 Python 版本,請將 XGBoost 安裝為 Databricks PyPI 程式庫 。 將它指定為下列專案,並將 取代 <xgboost version> 為所需的版本。

xgboost==<xgboost version>

在 Databricks Runtime 上安裝 XGBoost

  • Python 套件 :在筆記本資料格中執行下列命令:

    %pip install xgboost
    

若要安裝特定版本,請將 取代 <xgboost version> 為所需的版本:

  %pip install xgboost==<xgboost version>