Compartilhar via


Treinamento distribuído de vários gpus e vários nós

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de notebook para treinamento distribuído de vários nós e de várias GPUs usando a computação de GPU sem servidor. Esses exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento de modelo em várias GPUs, escolher a técnica de paralelismo correta depende do tamanho do modelo, da memória de GPU disponível e dos requisitos de desempenho.

Técnica Quando usar
DDP (Distributed Data Parallel) O modelo completo se encaixa na memória de GPU única; precisa dimensionar a taxa de transferência de dados
FSDP (paralelo de dados totalmente fragmentados) Modelos muito grandes que não se encaixam na memória de GPU única
DeepSpeed ZeRO Modelos grandes com necessidades avançadas de otimização de memória

Para obter informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de notebooks por técnica e estrutura

A tabela a seguir organiza blocos de anotações de exemplo pela estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de anotações podem aparecer em uma única célula.

Estrutura/Biblioteca Exemplos de DDP Exemplos de FSDP Exemplos de DeepSpeed
PyTorch (nativo) Rede neural MLP simples
Detecção de imagens RetinaNet
Transformador de parâmetro de 10M
Huggingface TRL Aperfeiçoar o GPT OSS 20B Ajustar o GPT OSS 120B Ajustar Llama 3.2 1B
Desalocada Refinar Llama 3.2 3B
Axolotl Aprimorar o Olmo3 7B
Fundição Mosaic LLM Aprimorar Llama 3.2 8B
Ray Train ResNet18 no FashionMNIST (visão computacional)
Ajuste de Hiperparâmetros do XGBoost
Relâmpago Sistema de recomendação de duas torres

Introdução

O notebook a seguir tem um exemplo básico de como usar a API Python de GPU sem servidor para iniciar várias GPUs A10 para treinamento distribuído.

API de GPU sem servidor: A10 starter

Obter laptop