Melatih model XGBoost pada satu GPU

Buka versi buku catatan halaman ini

Notebook ini menunjukkan cara melatih model regresi XGBoost pada satu GPU menggunakan komputasi GPU tanpa server Databricks. Akselerasi GPU secara signifikan mempercepat pelatihan model dibandingkan dengan pelatihan berbasis CPU, terutama untuk himpunan data besar.

Konsep utama tercakup:

Pelatihan yang dipercepat GPU: Menggunakan metode pohon XGBoost hist dengan perangkat CUDA untuk pelatihan yang lebih cepat
Model checkpointing: Menyimpan status model secara berkala ke volume Katalog Unity untuk pemulihan dan pelatihan bertahap
Himpunan data Perumahan California: Tugas regresi yang memprediksi nilai rumah median

Untuk informasi selengkapnya, lihat Dukungan GPU XGBoost dan Volume Katalog Unity.

Persyaratan

Notebook ini memerlukan kluster komputasi berkemampuan GPU. Komputasi GPU tanpa server Databricks dipilih secara otomatis saat menjalankan sel.

Menginstal pustaka yang diperlukan

Instal XGBoost versi 2.0.3 dan scikit-learn untuk metrik pemuatan dan evaluasi himpunan data.

%pip install xgboost==2.0.3 # due to this issue: https://github.com/ray-project/xgboost_ray/issues/312
%pip install scikit-learn
dbutils.library.restartPython()

Verifikasi bahwa XGBoost 2.0.3 diinstal dengan benar.

%pip show xgboost

Mengonfigurasi lokasi titik pemeriksaan Katalog Unity

Tentukan lokasi volume Katalog Unity tempat titik pemeriksaan model akan disimpan. Notebook menggunakan parameter kueri untuk mengonfigurasi katalog, skema, volume, dan nama model.

# You must have `USE CATALOG` privileges on the catalog, and you must have `USE SCHEMA` privileges on the schema.
# If necessary, change the catalog and schema name here.
dbutils.widgets.text("uc_catalog", "main")
dbutils.widgets.text("uc_schema", "default")
dbutils.widgets.text("uc_model_name", "custom_transformer")
dbutils.widgets.text("uc_volume", "checkpoints")

UC_CATALOG = dbutils.widgets.get("uc_catalog")
UC_SCHEMA = dbutils.widgets.get("uc_schema")
UC_VOLUME = dbutils.widgets.get("uc_volume")
MODEL_NAME = dbutils.widgets.get("uc_model_name")
CHECKPOINT_PATH = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/{UC_VOLUME}/{MODEL_NAME}"
CHECKPOINT_PREFIX = "checkpoint"

print(f"UC_CATALOG: {UC_CATALOG}")
print(f"UC_SCHEMA: {UC_SCHEMA}")
print(f"UC_VOLUME: {UC_VOLUME}")
print(f"CHECKPOINT_PATH: {CHECKPOINT_PATH}")

Buat panggilan balik titik pemeriksaan yang menyimpan status model setiap 50 putaran peningkatan ke volume Katalog Unity. Ini memungkinkan pemulihan dari kegagalan dan pelatihan inkremental.

import os
from xgboost.callback import TrainingCheckPoint

# Create the UC Volume where the checkpoint will be saved if it doesn't exist already
os.makedirs(CHECKPOINT_PATH, exist_ok=True)

# Create a callback to checkpoint to a UC volume
checkpoint_cb = TrainingCheckPoint(
    directory=CHECKPOINT_PATH,
    name=CHECKPOINT_PREFIX,
    iterations=50,       # save every 50 boosting rounds
)