Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página tem exemplos de cadernos para treino distribuído multi-GPU usando AI Runtime. Estes exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.
Observação
O treinamento distribuído multi-GPU é suportado por GPUs H100.
Escolha a sua técnica de paralelismo
Ao escalar o treino do seu modelo para múltiplas GPUs, escolher a técnica de paralelismo certa depende do tamanho do modelo, da memória disponível da GPU e dos requisitos de desempenho.
| Técnica | Quando utilizar |
|---|---|
| DDP (Dados Distribuídos Paralelos) | O modelo completo cabe na memória de uma única GPU, necessitando escalar a largura de banda de dados. |
| FSDP (Dados Totalmente Fragmentados em Paralelo) | Modelos muito grandes que não cabem numa única memória GPU |
| DeepSpeed ZeRO | Modelos grandes com necessidades avançadas de otimização de memória |
Para informações detalhadas sobre cada técnica, veja DDP, FSDP e DeepSpeed.
Exemplos de cadernos por técnica e estrutura
A tabela seguinte organiza cadernos de exemplo pelo framework/biblioteca que está a usar e pela técnica de paralelismo aplicada. Podem aparecer vários cadernos numa única célula.
| Framework/Biblioteca | Exemplos DDP | Exemplos de FSDP | Exemplos de DeepSpeed |
|---|---|---|---|
| PyTorch (nativo) |
Rede neural MLP simples Deteção de imagem RetinaNet |
Transformador de parâmetros de 10M | — |
| Huggingface TRL | Ajuste fino do Gpt OSS 20B | Ajuste fino Gpt OSS 120B | Ajuste fino do Llama 3.2 1B |
| Preguiça | Ajuste fino do Llama 3.2 3B | — | — |
| Axolote | Ajustar finamente Olmo3 7B | — | — |
| Plataforma Mosaic LLM | Afinação fina do Llama 3.2 8B | — | — |
| Relâmpago | Sistema de recomendação de duas torres | — | — |
Introdução
Utilize os seguintes tutoriais para começar com a biblioteca Python da GPU serverless para treino distribuído:
| Tutorial | Descrição |
|---|---|
| Runtime de IA com GPUs H100 | Aprenda a usar o Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho distribuídas de GPU usando a biblioteca serverless_gpu Python. |