Verwenden von XGBoost auf Azure Databricks

Dieser Artikel enthält Beispiele für das Training von Machine Learning-Modellen mit XGBoost in Azure Databricks. Databricks Runtime für Machine Learning enthält XGBoost-Bibliotheken für Python und Scala. Sie können XGBoost-Modelle auf einzelnen Computern oder in einer verteilten Umgebung trainieren.

Trainieren von XGBoost-Modellen auf einem einzelnen Knoten

Sie können Modelle mithilfe des Python-Pakets xgboost trainieren. Dieses Paket unterstützt nur Workloads mit nur einem Knoten. Informationen zum Trainieren einer PySpark-ML-Pipeline und zum Nutzen des verteilten Trainings finden Sie unter Verteiltes Training von XGBoost-Modellen.

XGBoost – Python-Notebook

Notebook abrufen

Verteiltes Training von XGBoost-Modellen

Für das verteilte Training von XGBoost-Modellen enthält Databricks PySpark-Schätzer, die auf dem xgboost-Paket basieren. Databricks enthält auch das Scala-Paket xgboost-4j. Ausführliche Informationen und Beispielnotebooks finden Sie in den folgenden Artikeln:

Installieren von XGBoost auf Azure Databricks

Wenn Sie XGBoost auf Databricks Runtime installieren oder eine andere Version als die mit Databricks Runtime ML vorinstallierte Version verwenden müssen, befolgen Sie diese Anweisungen.

Installieren von XGBoost in Databricks Runtime ML

XGBoost ist in Databricks Runtime ML enthalten. Sie können diese Bibliotheken in Databricks Runtime ML verwenden, ohne Pakete zu installieren.

Informationen zu der XGBoost-Version, die in der von Ihnen verwendeten Databricks Runtime ML-Version installiert ist, finden Sie in den Versionshinweisen. Installieren Sie XGBoost als Databricks PyPI-Bibliothek, um andere Python-Versionen in Databricks Runtime ML zu installieren. Geben Sie diese wie folgt an, und ersetzen Sie <xgboost version> durch die gewünschte Version.

xgboost==<xgboost version>

Installieren von XGBoost in Databricks Runtime

  • Python-Paket: Führen Sie den folgenden Befehl in einer Notebookzelle aus:

    %pip install xgboost
    

Ersetzen Sie zum Installieren einer bestimmten Version <xgboost version> durch die gewünschte Version:

  %pip install xgboost==<xgboost version>
  • Scala/Java packages:Installieren Sie diese als Databricks-Bibliothek mit dem Spark-Paketnamen xgboost-linux64.