Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página tem exemplos de notebook para treinamento distribuído de várias GPUs usando o AI Runtime. Esses exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.
Observação
Há suporte para treinamento distribuído de várias GPUs em GPUs H100.
Escolha sua técnica de paralelismo
Ao dimensionar o treinamento de modelo em várias GPUs, escolher a técnica de paralelismo correta depende do tamanho do modelo, da memória de GPU disponível e dos requisitos de desempenho.
| Técnica | Quando usar |
|---|---|
| DDP (Distributed Data Parallel) | O modelo completo se encaixa na memória de GPU única; precisa dimensionar a taxa de transferência de dados |
| FSDP (paralelo de dados totalmente fragmentados) | Modelos muito grandes que não se encaixam na memória de GPU única |
| DeepSpeed ZeRO | Modelos grandes com necessidades avançadas de otimização de memória |
Para obter informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.
Exemplo de notebooks por técnica e estrutura
A tabela a seguir organiza blocos de anotações de exemplo pela estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de anotações podem aparecer em uma única célula.
| Estrutura/Biblioteca | Exemplos de DDP | Exemplos de FSDP | Exemplos de DeepSpeed |
|---|---|---|---|
| PyTorch (nativo) |
Rede neural MLP simples Detecção de imagens RetinaNet |
Transformador de parâmetro de 10M | — |
| Huggingface TRL | Aperfeiçoar o GPT OSS 20B | Ajustar o GPT OSS 120B | Ajustar Llama 3.2 1B |
| Desalocada | Refinar Llama 3.2 3B | — | — |
| Axolotl | Aprimorar o Olmo3 7B | — | — |
| Fundição Mosaic LLM | Aprimorar Llama 3.2 8B | — | — |
| Relâmpago | Sistema de recomendação de duas torres | — | — |
Introdução
Use os tutoriais a seguir para começar a usar a biblioteca Python de GPU sem servidor para treinamento distribuído:
| Tutorial | Descrição |
|---|---|
| Runtime de IA com GPUs H100 | Saiba como usar o Databricks AI Runtime com aceleradores H100 para executar cargas de trabalho de GPU distribuídas usando a biblioteca serverless_gpu Python. |