Entraîner un modèle XGBoost sur un seul GPU

Ouvrir la version du bloc-notes de cette page

Ce notebook montre comment entraîner un modèle de régression XGBoost sur un seul GPU en utilisant la puissance de calcul GPU serverless de Databricks. L’accélération GPU accélère considérablement l’entraînement du modèle par rapport à l’entraînement basé sur le processeur, en particulier pour les jeux de données volumineux.

Concepts clés abordés :

Formation accélérée par GPU : utilise la méthode d’arborescence de hist XGBoost avec l’appareil CUDA pour une formation plus rapide
Enregistrement de point de contrôle du modèle : enregistre régulièrement l’état du modèle dans les volumes du catalogue Unity pour la récupération et l’apprentissage incrémentiel
Jeu de données de logement californien : problème de régression pour la prévision des valeurs médianes des maisons

Pour plus d’informations, consultez Prise en Charge du GPU XGBoost et Volumes du Catalogue Unity.

Exigences

Ce notebook nécessite un cluster de calcul avec GPU. Le calcul GPU serverless Databricks est automatiquement sélectionné lors de l’exécution de cellules.

Installer les bibliothèques requises

Installez XGBoost version 2.0.3 et scikit-learn pour le chargement et les métriques d’évaluation du jeu de données.

%pip install xgboost==2.0.3 # due to this issue: https://github.com/ray-project/xgboost_ray/issues/312
%pip install scikit-learn
dbutils.library.restartPython()

Vérifiez que XGBoost 2.0.3 est installé correctement.

%pip show xgboost

Configurer l’emplacement du point de contrôle du catalogue Unity

Définissez l’emplacement du volume du catalogue Unity où les points de contrôle de modèle seront enregistrés. Le notebook utilise des paramètres de requête pour configurer le catalogue, le schéma, le volume et le nom du modèle.

# You must have `USE CATALOG` privileges on the catalog, and you must have `USE SCHEMA` privileges on the schema.
# If necessary, change the catalog and schema name here.
dbutils.widgets.text("uc_catalog", "main")
dbutils.widgets.text("uc_schema", "default")
dbutils.widgets.text("uc_model_name", "custom_transformer")
dbutils.widgets.text("uc_volume", "checkpoints")

UC_CATALOG = dbutils.widgets.get("uc_catalog")
UC_SCHEMA = dbutils.widgets.get("uc_schema")
UC_VOLUME = dbutils.widgets.get("uc_volume")
MODEL_NAME = dbutils.widgets.get("uc_model_name")
CHECKPOINT_PATH = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/{UC_VOLUME}/{MODEL_NAME}"
CHECKPOINT_PREFIX = "checkpoint"

print(f"UC_CATALOG: {UC_CATALOG}")
print(f"UC_SCHEMA: {UC_SCHEMA}")
print(f"UC_VOLUME: {UC_VOLUME}")
print(f"CHECKPOINT_PATH: {CHECKPOINT_PATH}")

Créez un rappel de point de contrôle qui enregistre l’état du modèle toutes les 50 rondes d’amélioration dans le volume du catalogue Unity. Cela permet la récupération à partir d’échecs et de l’entraînement incrémentiel.

import os
from xgboost.callback import TrainingCheckPoint

# Create the UC Volume where the checkpoint will be saved if it doesn't exist already
os.makedirs(CHECKPOINT_PATH, exist_ok=True)

# Create a callback to checkpoint to a UC volume
checkpoint_cb = TrainingCheckPoint(
    directory=CHECKPOINT_PATH,
    name=CHECKPOINT_PREFIX,
    iterations=50,       # save every 50 boosting rounds
)