Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página tem exemplos de bloco de anotações para treinamento distribuído usando o DeepSpeed na computação de GPU sem servidor. O DeepSpeed fornece técnicas avançadas de otimização de memória através dos seus estágios ZeRO (Zero Redundancy Optimizer), permitindo um treino eficiente de grandes modelos.
Quando usar o DeepSpeed
Use DeepSpeed quando:
- É necessário uma otimização avançada da memória para além do FSDP padrão
- Queres um controlo detalhado sobre a fragmentação do estado do otimizador (ZeRO Estágio 1, 2 ou 3)
- Precisas de funcionalidades adicionais como fusão de acumulação de gradiente ou descarregamento de CPU
- Estás a trabalhar com grandes modelos de linguagem (parâmetros 1B a 100B+)
Para casos de uso mais simples, considere o DDP. Para o treino de grandes modelos nativos do PyTorch, veja FSDP.
Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3
Este portátil demonstra como usar a API Python da GPU Serverless para executar ajuste fino supervisionado (SFT) usando a biblioteca Transformer Reinforcement Learning (TRL) com otimização DeepSpeed ZeRO Stage 3 numa GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.