XGBoost-model trainen op één GPU

Notitieblokversie van deze pagina openen

Dit notebook laat zien hoe u een XGBoost-regressiemodel traint op één GPU met behulp van serverloze GPU-rekenkracht van Databricks. GPU-versnelling versnelt modeltraining aanzienlijk in vergelijking met training op basis van CPU, met name voor grote gegevenssets.

Belangrijke concepten die worden behandeld:

GPU-versnelde training: maakt gebruik van de structuurmethode van hist XGBoost met CUDA-apparaat voor snellere training
Modelcontrolepunten: de modelstatus periodiek opslaan in Unity Catalog-volumes voor herstel en incrementele training
California Housing-gegevensset: een regressietaak die mediaan huizenprijzen voorspelt

Zie XGBoost GPU-ondersteuning en Unity Catalog-volumes voor meer informatie.

Requirements

Voor dit notebook is een rekencluster met GPU vereist. Serverloze GPU-rekenkracht van Databricks wordt automatisch geselecteerd bij het uitvoeren van cellen.

Vereiste bibliotheken installeren

Installeer XGBoost versie 2.0.3 en scikit-learn voor het laden en evalueren van metrische gegevens over gegevenssets.

%pip install xgboost==2.0.3 # due to this issue: https://github.com/ray-project/xgboost_ray/issues/312
%pip install scikit-learn
dbutils.library.restartPython()

Controleer of XGBoost 2.0.3 juist is geïnstalleerd.

%pip show xgboost

Locatie van controlepunt voor Unity Catalog configureren

Definieer de volumelocatie van de Unity-catalogus waar modelcontrolepunten worden opgeslagen. In het notebook worden queryparameters gebruikt om de naam van de catalogus, het schema, het volume en het model te configureren.

# You must have `USE CATALOG` privileges on the catalog, and you must have `USE SCHEMA` privileges on the schema.
# If necessary, change the catalog and schema name here.
dbutils.widgets.text("uc_catalog", "main")
dbutils.widgets.text("uc_schema", "default")
dbutils.widgets.text("uc_model_name", "custom_transformer")
dbutils.widgets.text("uc_volume", "checkpoints")

UC_CATALOG = dbutils.widgets.get("uc_catalog")
UC_SCHEMA = dbutils.widgets.get("uc_schema")
UC_VOLUME = dbutils.widgets.get("uc_volume")
MODEL_NAME = dbutils.widgets.get("uc_model_name")
CHECKPOINT_PATH = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/{UC_VOLUME}/{MODEL_NAME}"
CHECKPOINT_PREFIX = "checkpoint"

print(f"UC_CATALOG: {UC_CATALOG}")
print(f"UC_SCHEMA: {UC_SCHEMA}")
print(f"UC_VOLUME: {UC_VOLUME}")
print(f"CHECKPOINT_PATH: {CHECKPOINT_PATH}")

Maak een callback van controlepunten die de modelstatus elke 50 boostrondes opslaat op het Unity Catalog-volume. Dit maakt herstel mogelijk van fouten en incrementele training.

import os
from xgboost.callback import TrainingCheckPoint

# Create the UC Volume where the checkpoint will be saved if it doesn't exist already
os.makedirs(CHECKPOINT_PATH, exist_ok=True)

# Create a callback to checkpoint to a UC volume
checkpoint_cb = TrainingCheckPoint(
    directory=CHECKPOINT_PATH,
    name=CHECKPOINT_PREFIX,
    iterations=50,       # save every 50 boosting rounds
)