Treinamento distribuído multi-GPU

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de cadernos para treino distribuído multi-GPU usando AI Runtime. Estes exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Observação

O treinamento distribuído multi-GPU é suportado por GPUs H100.

Escolha a sua técnica de paralelismo

Ao escalar o treino do seu modelo para múltiplas GPUs, escolher a técnica de paralelismo certa depende do tamanho do modelo, da memória disponível da GPU e dos requisitos de desempenho.

Técnica	Quando utilizar
DDP (Dados Distribuídos Paralelos)	O modelo completo cabe na memória de uma única GPU, necessitando escalar a largura de banda de dados.
FSDP (Dados Totalmente Fragmentados em Paralelo)	Modelos muito grandes que não cabem numa única memória GPU
DeepSpeed ZeRO	Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, veja DDP, FSDP e DeepSpeed.

Exemplos de cadernos por técnica e estrutura

A tabela seguinte organiza cadernos de exemplo pelo framework/biblioteca que está a usar e pela técnica de paralelismo aplicada. Podem aparecer vários cadernos numa única célula.

Framework/Biblioteca	Exemplos DDP	Exemplos de FSDP	Exemplos de DeepSpeed
PyTorch (nativo)	Rede neural MLP simples Deteção de imagem RetinaNet	Transformador de parâmetros de 10M	—
Huggingface TRL	Ajuste fino do Gpt OSS 20B	Ajuste fino Gpt OSS 120B	Ajuste fino do Llama 3.2 1B
Preguiça	Ajuste fino do Llama 3.2 3B	—	—
Axolote	Ajustar finamente Olmo3 7B	—	—
Plataforma Mosaic LLM	Afinação fina do Llama 3.2 8B	—	—
Relâmpago	Sistema de recomendação de duas torres	—	—

Introdução

Utilize os seguintes tutoriais para começar com a biblioteca Python da GPU serverless para treino distribuído:

Tutorial	Descrição
Runtime de IA com GPUs H100	Aprenda a usar o Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho distribuídas de GPU usando a biblioteca serverless_gpu Python.

Comentários

Esta página foi útil?

Last updated on 2026-03-21