Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой записной книжке показано, как использовать вычислительные ресурсы Databricks Serverless GPU с акселераторами H100. Вы узнаете, как подключиться к GPU H100 и запускать распределенные рабочие нагрузки с помощью serverless_gpu библиотеки Python.
Библиотека serverless_gpu позволяет беспрепятственно выполнять нагрузки на GPU прямо из блокнотов Databricks. Она предоставляет декораторы и служебные программы среды выполнения для распределенных вычислений GPU. Дополнительные сведения см. в документации по API без сервера GPU.
Подключитесь к беспсерверным вычислительным ресурсам на базе GPU
Чтобы запустить эту записную книжку, вам потребуется доступ к вычислительным ресурсам Databricks Serverless GPU с акселераторами H100.
- В селекторе вычислений выберите бессерверный GPU.
- На вкладке "Среда" справа выберите H100 для акселератора. Этот параметр использует 8 микросхем H100 на одном узле.
- Нажмите кнопку "Применить".
В приведенном ниже примере Hello World описано, как нацеливать удаленные ГРАФИЧЕСКИЕ процессоры для масштабирования до дополнительных ресурсов.
Когда следует использовать GPU H100
По сравнению с A10s, H100s обеспечивают большее количество операций с плавающей запятой в секунду (FLOPS) и память с высокой пропускной способностью (HBM). Используйте H100s для обучения больших моделей, где требуется высокая пропускная способность и (или) большая память GPU.
Проверка подключения GPU
nvidia-smi Используйте команду, чтобы убедиться, что вы подключены к 8 GPU H100. Эта команда отображает сведения GPU, включая модель, память и использование.
%sh nvidia-smi
Thu Jan 15 17:56:54 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.08 Driver Version: 575.57.08 CUDA Version: 12.9 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA H100 80GB HBM3 On | 00000000:53:00.0 Off | 0 |
| N/A 26C P0 70W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 1 NVIDIA H100 80GB HBM3 On | 00000000:64:00.0 Off | 0 |
| N/A 28C P0 68W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 2 NVIDIA H100 80GB HBM3 On | 00000000:75:00.0 Off | 0 |
| N/A 26C P0 71W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 3 NVIDIA H100 80GB HBM3 On | 00000000:86:00.0 Off | 0 |
| N/A 29C P0 68W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 4 NVIDIA H100 80GB HBM3 On | 00000000:97:00.0 Off | 0 |
| N/A 27C P0 67W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 5 NVIDIA H100 80GB HBM3 On | 00000000:A8:00.0 Off | 0 |
| N/A 26C P0 67W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 6 NVIDIA H100 80GB HBM3 On | 00000000:B9:00.0 Off | 0 |
| N/A 26C P0 69W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
| 7 NVIDIA H100 80GB HBM3 On | 00000000:CA:00.0 Off | 0 |
| N/A 26C P0 67W / 700W | 0MiB / 81559MiB | 0% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
Пример Hello World
В этом примере показано, как запустить распределенную функцию на нескольких GPU с помощью декоратора @distributed.
Аннотированная функция ниже запускается на 8 процессов, по одному на GPU на узле, к которому подключен ноутбук. Примечания launch указывает количество GPU.
Функция использует runtime модуль для доступа к локальным и глобальным рангам GPU.
from serverless_gpu import distributed
from serverless_gpu import runtime as rt
@distributed(
gpus=8,
gpu_type='h100',
)
def hello_world(name: str) -> list[int]:
if rt.get_local_rank() == 0:
print('hello world', name)
return rt.get_global_rank()
result = hello_world.distributed('SGC')
assert result == [0, 1, 2, 3, 4, 5, 6, 7]
Дальнейшие действия
- Рекомендации по вычислению бессерверного GPU
- Устранение неполадок с бессерверными вычислительными процессорами GPU
- Распределенное обучение с несколькими GPU и несколькими узлами
- Документация по API без сервера GPU