Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página tem exemplos de notebook para treinamento distribuído usando o DeepSpeed na computação de GPU sem servidor. O DeepSpeed fornece técnicas avançadas de otimização de memória por meio de seus estágios do ZeRO (Otimizador de Redundância Zero), permitindo o treinamento eficiente de modelos grandes.
Quando usar o DeepSpeed
Use DeepSpeed quando:
- Você precisa de otimização de memória avançada além do FSDP padrão
- Você deseja um controle refinado sobre a fragmentação de estado do otimizador (ZeRO Stage 1, 2 ou 3)
- Você precisa de recursos adicionais, como fusão de acúmulo de gradiente ou descarregamento de CPU
- Você está trabalhando com modelos de linguagem grandes (parâmetros de 1B a 100B+)
Para casos de uso mais simples, considere DDP. Para treinamento de modelo grande nativo do PyTorch, consulte FSDP.
Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3
Este notebook demonstra como utilizar a API Python para GPU sem servidor para realizar o SFT (ajuste fino supervisionado) usando a biblioteca TRL (Transformer Reinforcement Learning) com otimização de DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.