Partilhar via


Treinamento distribuído multi-GPU

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de cadernos para treino distribuído multi-GPU usando AI Runtime. Estes exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Observação

O treinamento distribuído multi-GPU é suportado por GPUs H100.

Escolha a sua técnica de paralelismo

Ao escalar o treino do seu modelo para múltiplas GPUs, escolher a técnica de paralelismo certa depende do tamanho do modelo, da memória disponível da GPU e dos requisitos de desempenho.

Técnica Quando utilizar
DDP (Dados Distribuídos Paralelos) O modelo completo cabe na memória de uma única GPU, necessitando escalar a largura de banda de dados.
FSDP (Dados Totalmente Fragmentados em Paralelo) Modelos muito grandes que não cabem numa única memória GPU
DeepSpeed ZeRO Modelos grandes com necessidades avançadas de otimização de memória

Para informações detalhadas sobre cada técnica, veja DDP, FSDP e DeepSpeed.

Exemplos de cadernos por técnica e estrutura

A tabela seguinte organiza cadernos de exemplo pelo framework/biblioteca que está a usar e pela técnica de paralelismo aplicada. Podem aparecer vários cadernos numa única célula.

Framework/Biblioteca Exemplos DDP Exemplos de FSDP Exemplos de DeepSpeed
PyTorch (nativo) Rede neural MLP simples
Deteção de imagem RetinaNet
Transformador de parâmetros de 10M
Huggingface TRL Ajuste fino do Gpt OSS 20B Ajuste fino Gpt OSS 120B Ajuste fino do Llama 3.2 1B
Preguiça Ajuste fino do Llama 3.2 3B
Axolote Ajustar finamente Olmo3 7B
Plataforma Mosaic LLM Afinação fina do Llama 3.2 8B
Relâmpago Sistema de recomendação de duas torres

Introdução

Utilize os seguintes tutoriais para começar com a biblioteca Python da GPU serverless para treino distribuído:

Tutorial Descrição
Runtime de IA com GPUs H100 Aprenda a usar o Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho distribuídas de GPU usando a biblioteca serverless_gpu Python.