Verwenden von XGBoost auf Azure Databricks

Dieser Artikel enthält Beispiele für das Training von Machine Learning-Modellen mit XGBoost in Azure Databricks. Databricks Runtime für Machine Learning enthält XGBoost-Bibliotheken für Python und Scala. Sie können XGBoost-Modelle auf einzelnen Computern oder in einer verteilten Umgebung trainieren.

Trainieren Sie XGBoost-Modelle auf einem einzelnen Knoten

Sie können Modelle mithilfe des Python-Pakets xgboost trainieren. Dieses Paket unterstützt nur Workloads mit nur einem Knoten. Informationen zum Trainieren einer PySpark-ML-Pipeline und zum Nutzen des verteilten Trainings finden Sie unter Verteiltes Training von XGBoost-Modellen.

XGBoost – Python-Notebook

Notebook abrufen

Verteiltes Training von XGBoost-Modellen

Für das verteilte Training von XGBoost-Modellen enthält Databricks PySpark-Schätzer, die auf dem xgboost-Paket basieren. In Databricks Runtime 16.4 LTS ML und darunter umfasst Databricks auch das Scala-Paket xgboost-4j. Ausführliche Informationen und Beispielnotebooks finden Sie in den folgenden Artikeln:

Verteilte Schulung von XGBoost-Modellen mithilfe von xgboost.spark (Databricks Runtime 12.0 ML und höher)
Verteilte Schulung von XGBoost-Modellen mithilfe von sparkdl.xgboost (veraltet ab Databricks Runtime 12.0 ML)
Verteiltes Training von XGBoost-Modellen mit Scala

Installation von XGBoost auf Azure Databricks

Wenn Sie XGBoost auf Databricks Runtime installieren oder eine andere Version als die mit Databricks Runtime ML vorinstallierte Version verwenden müssen, befolgen Sie diese Anweisungen.

Installieren von XGBoost in Databricks Runtime ML

XGBoost ist in Databricks Runtime ML enthalten. Sie können diese Bibliotheken in Databricks Runtime ML verwenden, ohne Pakete zu installieren.

Informationen zu der XGBoost-Version, die in der von Ihnen verwendeten Databricks Runtime ML-Version installiert ist, finden Sie in den Versionshinweisen. Installieren Sie XGBoost als Databricks PyPI-Bibliothek, um andere Python-Versionen in Databricks Runtime ML zu installieren. Geben Sie diese wie folgt an, und ersetzen Sie <xgboost version> durch die gewünschte Version.

xgboost==<xgboost version>

Installation von XGBoost auf Databricks Runtime

Python-Paket: Führen Sie den folgenden Befehl in einer Notebookzelle aus:
```
%pip install xgboost
```

Ersetzen Sie zum Installieren einer bestimmten Version <xgboost version> durch die gewünschte Version:

  %pip install xgboost==<xgboost version>

Scala/Java packages:Installieren Sie diese als Databricks-Bibliothek mit dem Spark-Paketnamen xgboost-linux64.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-19