Обучение модели XGBoost на одном GPU

Откройте версию страницы для записной книжки

В этой записной книжке показано, как обучить модель регрессии XGBoost на одном GPU с помощью бессерверных вычислений GPU Databricks. Ускорение GPU значительно ускоряет обучение модели по сравнению с обучением на основе ЦП, особенно для больших наборов данных.

Основные понятия:

Обучение с ускорением GPU: использует метод дерева XGBoost hist с устройством CUDA для ускорения обучения
Контрольная точка модели: периодически сохраняет состояние модели в томах каталога Unity для восстановления и добавочного обучения
Набор данных о жилье в Калифорнии: задача регрессии по прогнозированию медианных значений стоимости домов

Дополнительные сведения см. в разделе Поддержка GPU XGBoost и Тома каталога Unity.

Требования

Для этой записной книжки требуется вычислительный кластер с поддержкой GPU. При выполнении ячеек в Databricks автоматически выбираются бессерверные вычислительные ресурсы GPU.

Установка необходимых библиотек

Установите XGBoost версии 2.0.3 и scikit-learn для загрузки и оценки набора данных.

%pip install xgboost==2.0.3 # due to this issue: https://github.com/ray-project/xgboost_ray/issues/312
%pip install scikit-learn
dbutils.library.restartPython()

Убедитесь, что XGBoost 2.0.3 установлен правильно.

%pip show xgboost

Настройка расположения контрольной точки каталога Unity

Определите расположение тома каталога Unity, в котором будут сохранены контрольные точки модели. Записная книжка использует параметры запроса для настройки каталога, схемы, тома и имени модели.

# You must have `USE CATALOG` privileges on the catalog, and you must have `USE SCHEMA` privileges on the schema.
# If necessary, change the catalog and schema name here.
dbutils.widgets.text("uc_catalog", "main")
dbutils.widgets.text("uc_schema", "default")
dbutils.widgets.text("uc_model_name", "custom_transformer")
dbutils.widgets.text("uc_volume", "checkpoints")

UC_CATALOG = dbutils.widgets.get("uc_catalog")
UC_SCHEMA = dbutils.widgets.get("uc_schema")
UC_VOLUME = dbutils.widgets.get("uc_volume")
MODEL_NAME = dbutils.widgets.get("uc_model_name")
CHECKPOINT_PATH = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/{UC_VOLUME}/{MODEL_NAME}"
CHECKPOINT_PREFIX = "checkpoint"

print(f"UC_CATALOG: {UC_CATALOG}")
print(f"UC_SCHEMA: {UC_SCHEMA}")
print(f"UC_VOLUME: {UC_VOLUME}")
print(f"CHECKPOINT_PATH: {CHECKPOINT_PATH}")

Создайте обратный вызов контрольной точки, который сохраняет состояние модели каждые 50 округлений до тома каталога Unity. Это обеспечивает восстановление после сбоев и добавочного обучения.

import os
from xgboost.callback import TrainingCheckPoint

# Create the UC Volume where the checkpoint will be saved if it doesn't exist already
os.makedirs(CHECKPOINT_PATH, exist_ok=True)

# Create a callback to checkpoint to a UC volume
checkpoint_cb = TrainingCheckPoint(
    directory=CHECKPOINT_PATH,
    name=CHECKPOINT_PREFIX,
    iterations=50,       # save every 50 boosting rounds
)