Compartilhar via


Treinamento distribuído com várias GPUs

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de notebook para treinamento distribuído de várias GPUs usando o AI Runtime. Esses exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Observação

Há suporte para treinamento distribuído de várias GPUs em GPUs H100.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento de modelo em várias GPUs, escolher a técnica de paralelismo correta depende do tamanho do modelo, da memória de GPU disponível e dos requisitos de desempenho.

Técnica Quando usar
DDP (Distributed Data Parallel) O modelo completo se encaixa na memória de GPU única; precisa dimensionar a taxa de transferência de dados
FSDP (paralelo de dados totalmente fragmentados) Modelos muito grandes que não se encaixam na memória de GPU única
DeepSpeed ZeRO Modelos grandes com necessidades avançadas de otimização de memória

Para obter informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de notebooks por técnica e estrutura

A tabela a seguir organiza blocos de anotações de exemplo pela estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de anotações podem aparecer em uma única célula.

Estrutura/Biblioteca Exemplos de DDP Exemplos de FSDP Exemplos de DeepSpeed
PyTorch (nativo) Rede neural MLP simples
Detecção de imagens RetinaNet
Transformador de parâmetro de 10M
Huggingface TRL Aperfeiçoar o GPT OSS 20B Ajustar o GPT OSS 120B Ajustar Llama 3.2 1B
Desalocada Refinar Llama 3.2 3B
Axolotl Aprimorar o Olmo3 7B
Fundição Mosaic LLM Aprimorar Llama 3.2 8B
Relâmpago Sistema de recomendação de duas torres

Introdução

Use os tutoriais a seguir para começar a usar a biblioteca Python de GPU sem servidor para treinamento distribuído:

Tutorial Descrição
Runtime de IA com GPUs H100 Saiba como usar o Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho de GPU distribuídas usando a biblioteca serverless_gpu Python.