Начало работы: бессерверные вычисления на GPU с H100 GPU

В этой записной книжке показано, как использовать вычислительные ресурсы Databricks Serverless GPU с акселераторами H100. Вы узнаете, как подключиться к GPU H100 и запускать распределенные рабочие нагрузки с помощью serverless_gpu библиотеки Python.

Библиотека serverless_gpu позволяет беспрепятственно выполнять нагрузки на GPU прямо из блокнотов Databricks. Она предоставляет декораторы и служебные программы среды выполнения для распределенных вычислений GPU. Дополнительные сведения см. в документации по API без сервера GPU.

Подключитесь к беспсерверным вычислительным ресурсам на базе GPU

Чтобы запустить эту записную книжку, вам потребуется доступ к вычислительным ресурсам Databricks Serverless GPU с акселераторами H100.

  1. В селекторе вычислений выберите бессерверный GPU.
  2. На вкладке "Среда" справа выберите H100 для акселератора. Этот параметр использует 8 микросхем H100 на одном узле.
  3. Нажмите кнопку "Применить".

В приведенном ниже примере Hello World описано, как нацеливать удаленные ГРАФИЧЕСКИЕ процессоры для масштабирования до дополнительных ресурсов.

Когда следует использовать GPU H100

По сравнению с A10s, H100s обеспечивают большее количество операций с плавающей запятой в секунду (FLOPS) и память с высокой пропускной способностью (HBM). Используйте H100s для обучения больших моделей, где требуется высокая пропускная способность и (или) большая память GPU.

Проверка подключения GPU

nvidia-smi Используйте команду, чтобы убедиться, что вы подключены к 8 GPU H100. Эта команда отображает сведения GPU, включая модель, память и использование.

%sh nvidia-smi
Thu Jan 15 17:56:54 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.08              Driver Version: 575.57.08      CUDA Version: 12.9     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 80GB HBM3          On  |   00000000:53:00.0 Off |                    0 |
| N/A   26C    P0             70W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  |   00000000:64:00.0 Off |                    0 |
| N/A   28C    P0             68W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  |   00000000:75:00.0 Off |                    0 |
| N/A   26C    P0             71W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  |   00000000:86:00.0 Off |                    0 |
| N/A   29C    P0             68W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  |   00000000:97:00.0 Off |                    0 |
| N/A   27C    P0             67W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  |   00000000:A8:00.0 Off |                    0 |
| N/A   26C    P0             67W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  |   00000000:B9:00.0 Off |                    0 |
| N/A   26C    P0             69W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  |   00000000:CA:00.0 Off |                    0 |
| N/A   26C    P0             67W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

Пример Hello World

В этом примере показано, как запустить распределенную функцию на нескольких GPU с помощью декоратора @distributed.

Аннотированная функция ниже запускается на 8 процессов, по одному на GPU на узле, к которому подключен ноутбук. Примечания launch указывает количество GPU.

Функция использует runtime модуль для доступа к локальным и глобальным рангам GPU.

from serverless_gpu import distributed
from serverless_gpu import runtime as rt

@distributed(
    gpus=8,
    gpu_type='h100',
)
def hello_world(name: str) -> list[int]:
    if rt.get_local_rank() == 0:
        print('hello world', name)
    return rt.get_global_rank()

result = hello_world.distributed('SGC')

assert result == [0, 1, 2, 3, 4, 5, 6, 7]

Дальнейшие действия

Пример записной книжки

Начало работы: бессерверные вычисления на GPU с H100 GPU

Получите ноутбук