Treinar o modelo XGBoost numa única GPU

Abrir a versão desta página do bloco de notas

Este notebook demonstra como treinar um modelo de regressão XGBoost numa GPU única utilizando computação serverless da Databricks. A aceleração por GPU acelera significativamente o treino do modelo em comparação com o treino baseado em CPU, especialmente para grandes conjuntos de dados.

Conceitos-chave abordados:

Treino acelerado por GPU: Utiliza o método de árvore do hist XGBoost com dispositivo CUDA para treino mais rápido
Checkpoint do modelo: Guarda periodicamente o estado do modelo nos volumes do Unity Catalog para recuperação e treino incremental
Conjunto de dados de habitação da Califórnia: Uma tarefa de regressão que prevê os valores medianos das casas

Para mais informações, consulte XGBoost GPU Support e volumes do Unity Catalog.

Requisitos

Este portátil requer um cluster de computação com GPU. O processamento de GPU sem servidor do Databricks é automaticamente selecionado durante a execução das células.

Instalar as bibliotecas necessárias

Instale o XGBoost versão 2.0.3 e o scikit-learn para carregar e avaliar métricas de conjuntos de dados.

%pip install xgboost==2.0.3 # due to this issue: https://github.com/ray-project/xgboost_ray/issues/312
%pip install scikit-learn
dbutils.library.restartPython()

Verifica se o XGBoost 2.0.3 está instalado corretamente.

%pip show xgboost

Configurar a localização do ponto de verificação do Unity Catalog

Defina a localização do volume do Unity Catalog onde os checkpoints do modelo serão guardados. O caderno utiliza parâmetros de consulta para configurar o catálogo, esquema, volume e nome do modelo.

# You must have `USE CATALOG` privileges on the catalog, and you must have `USE SCHEMA` privileges on the schema.
# If necessary, change the catalog and schema name here.
dbutils.widgets.text("uc_catalog", "main")
dbutils.widgets.text("uc_schema", "default")
dbutils.widgets.text("uc_model_name", "custom_transformer")
dbutils.widgets.text("uc_volume", "checkpoints")

UC_CATALOG = dbutils.widgets.get("uc_catalog")
UC_SCHEMA = dbutils.widgets.get("uc_schema")
UC_VOLUME = dbutils.widgets.get("uc_volume")
MODEL_NAME = dbutils.widgets.get("uc_model_name")
CHECKPOINT_PATH = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/{UC_VOLUME}/{MODEL_NAME}"
CHECKPOINT_PREFIX = "checkpoint"

print(f"UC_CATALOG: {UC_CATALOG}")
print(f"UC_SCHEMA: {UC_SCHEMA}")
print(f"UC_VOLUME: {UC_VOLUME}")
print(f"CHECKPOINT_PATH: {CHECKPOINT_PATH}")

Crie um callback de checkpoint que guarde o estado do modelo a cada 50 rondas de aumento no volume do Unity Catalog. Isto permite a recuperação de falhas e treino incremental.

import os
from xgboost.callback import TrainingCheckPoint

# Create the UC Volume where the checkpoint will be saved if it doesn't exist already
os.makedirs(CHECKPOINT_PATH, exist_ok=True)

# Create a callback to checkpoint to a UC volume
checkpoint_cb = TrainingCheckPoint(
    directory=CHECKPOINT_PATH,
    name=CHECKPOINT_PREFIX,
    iterations=50,       # save every 50 boosting rounds
)