Compartilhar via


Introdução: Computação de GPU sem servidor com GPUs H100

Este notebook demonstra como usar a computação de GPU sem servidor do Databricks com aceleradores H100. Você aprenderá a se conectar a GPUs H100 e executar cargas de trabalho distribuídas usando a biblioteca Python serverless_gpu .

A serverless_gpu biblioteca permite a execução contínua de cargas de trabalho de GPU diretamente dos notebooks do Databricks. Ele fornece decoradores e utilitários de runtime para computação de GPU distribuída. Para saber mais, confira a documentação da API de GPU sem servidor.

Conectar-se à computação de GPU sem servidor

Para executar este notebook, você precisa de acesso à computação de GPU sem servidor do Databricks com aceleradores H100.

  1. No seletor de computação, selecione GPU sem servidor.
  2. Na guia "Ambiente" no lado direito, selecione H100 para o acelerador. Essa opção usa 8 chips H100 em um único nó.
  3. Clique em Aplicar.

Veja o exemplo hello world abaixo para saber como direcionar GPUs remotas para dimensionar para mais recursos.

Quando usar GPUs H100

Em comparação com os A10s, os H100s oferecem operações de ponto flutuante maiores por segundo (FLOPS) e HBM (memória de alta largura de banda). Use H100s para o treinamento de grandes modelos em que alta taxa de transferência e/ou grande memória de GPU seja necessária.

Verificar a conexão de GPU

Use o nvidia-smi comando para confirmar se você está conectado a 8 GPUs H100. Esse comando exibe informações de GPU, incluindo modelo, memória e utilização.

%sh nvidia-smi
Thu Jan 15 17:56:54 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 575.57.08              Driver Version: 575.57.08      CUDA Version: 12.9     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 80GB HBM3          On  |   00000000:53:00.0 Off |                    0 |
| N/A   26C    P0             70W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  |   00000000:64:00.0 Off |                    0 |
| N/A   28C    P0             68W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  |   00000000:75:00.0 Off |                    0 |
| N/A   26C    P0             71W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  |   00000000:86:00.0 Off |                    0 |
| N/A   29C    P0             68W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  |   00000000:97:00.0 Off |                    0 |
| N/A   27C    P0             67W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  |   00000000:A8:00.0 Off |                    0 |
| N/A   26C    P0             67W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  |   00000000:B9:00.0 Off |                    0 |
| N/A   26C    P0             69W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  |   00000000:CA:00.0 Off |                    0 |
| N/A   26C    P0             67W /  700W |       0MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+

Exemplo de Olá, Mundo

Este exemplo demonstra como executar uma função distribuída em várias GPUs usando o @distributed decorador.

A função anotada abaixo é executada em 8 processos, um por GPU no nó ao qual o notebook está conectado. A launch anotação especifica o número de GPUs.

A função usa o runtime módulo para acessar as classificações de GPU local e global.

from serverless_gpu import distributed
from serverless_gpu import runtime as rt

@distributed(
    gpus=8,
    gpu_type='h100',
)
def hello_world(name: str) -> list[int]:
    if rt.get_local_rank() == 0:
        print('hello world', name)
    return rt.get_global_rank()

result = hello_world.distributed('SGC')

assert result == [0, 1, 2, 3, 4, 5, 6, 7]

Próximas Etapas 

Notebook de exemplo

Introdução: Computação de GPU sem servidor com GPUs H100

Obter laptop