Treinamento distribuído com várias GPUs

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de notebook para treinamento distribuído de várias GPUs usando o AI Runtime. Esses exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Observação

Há suporte para treinamento distribuído de várias GPUs em GPUs H100.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento de modelo em várias GPUs, escolher a técnica de paralelismo correta depende do tamanho do modelo, da memória de GPU disponível e dos requisitos de desempenho.

Técnica	Quando usar
DDP (Distributed Data Parallel)	O modelo completo se encaixa na memória de GPU única; precisa dimensionar a taxa de transferência de dados
FSDP (paralelo de dados totalmente fragmentados)	Modelos muito grandes que não se encaixam na memória de GPU única
DeepSpeed ZeRO	Modelos grandes com necessidades avançadas de otimização de memória

Para obter informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de notebooks por técnica e estrutura

A tabela a seguir organiza blocos de anotações de exemplo pela estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de anotações podem aparecer em uma única célula.

Estrutura/Biblioteca	Exemplos de DDP	Exemplos de FSDP	Exemplos de DeepSpeed
PyTorch (nativo)	Rede neural MLP simples Detecção de imagens RetinaNet	Transformador de parâmetro de 10M	—
Huggingface TRL	Aperfeiçoar o GPT OSS 20B	Ajustar o GPT OSS 120B	Ajustar Llama 3.2 1B
Desalocada	Refinar Llama 3.2 3B	—	—
Axolotl	Aprimorar o Olmo3 7B	—	—
Fundição Mosaic LLM	Aprimorar Llama 3.2 8B	—	—
Relâmpago	Sistema de recomendação de duas torres	—	—

Introdução

Use os tutoriais a seguir para começar a usar a biblioteca Python de GPU sem servidor para treinamento distribuído:

Tutorial	Descrição
Runtime de IA com GPUs H100	Saiba como usar o Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho de GPU distribuídas usando a biblioteca serverless_gpu Python.

Comentários

Esta página foi útil?

Last updated on 2026-03-21