Usare XGBoost in Azure Databricks

Articolo
03/01/2024

Questo articolo fornisce esempi di training di modelli di Machine Learning con XGBoost in Azure Databricks. Databricks Runtime per Machine Learning include librerie XGBoost sia per Python che per Scala. È possibile eseguire il training dei modelli XGBoost in un singolo computer o in modo distribuito.

Eseguire il training di modelli XGBoost in un singolo nodo

È possibile eseguire il training dei modelli usando il pacchetto Python xgboost . Questo pacchetto supporta solo carichi di lavoro a nodo singolo. Per eseguire il training di una pipeline di Ml PySpark e sfruttare i vantaggi del training distribuito, vedere Training distribuito dei modelli XGBoost.

Notebook Python XGBoost

Ottenere il notebook

Training distribuito dei modelli XGBoost

Per il training distribuito dei modelli XGBoost, Databricks include gli estimatori PySpark basati sul xgboost pacchetto. Databricks include anche il pacchetto xgboost-4jScala. Per informazioni dettagliate e notebook di esempio, vedere quanto segue:

Training distribuito dei modelli XGBoost con xgboost.spark (Databricks Runtime 12.0 ML e versioni successive)
Training distribuito dei modelli XGBoost con sparkdl.xgboost (deprecato a partire da Databricks Runtime 12.0 ML)
Training distribuito dei modelli XGBoost con Scala

Installare XGBoost in Azure Databricks

Se è necessario installare XGBoost in Databricks Runtime o usare una versione diversa da quella preinstallata con Databricks Runtime ML, seguire queste istruzioni.

Installare XGBoost in Databricks Runtime ML

XGBoost è incluso in Databricks Runtime ML. È possibile usare queste librerie in Databricks Runtime ML senza installare alcun pacchetto.

Per la versione di XGBoost installata nella versione di Databricks Runtime ML in uso, vedere le note sulla versione. Per installare altre versioni Python in Databricks Runtime ML, installare XGBoost come libreria PyPI di Databricks. Specificarla come indicato di seguito e sostituire <xgboost version> con la versione desiderata.

xgboost==<xgboost version>

Installare XGBoost in Databricks Runtime

Pacchetto Python: eseguire il comando seguente in una cella del notebook:
```
%pip install xgboost
```

Per installare una versione specifica, sostituire <xgboost version> con la versione desiderata:

  %pip install xgboost==<xgboost version>

Pacchetti Scala/Java: installare come libreria Databricks con il nome xgboost-linux64del pacchetto Spark.