Compartilhar via


Treinamento distribuído usando DeepSpeed

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página apresenta exemplos de notebooks para treinamento distribuído usando DeepSpeed no AI Runtime. O DeepSpeed fornece técnicas avançadas de otimização de memória por meio de seus estágios do ZeRO (Otimizador de Redundância Zero), permitindo o treinamento eficiente de modelos grandes.

Quando usar o DeepSpeed

Use DeepSpeed quando:

  • Você precisa de otimização de memória avançada além do FSDP padrão
  • Você deseja um controle refinado sobre a fragmentação de estado do otimizador (ZeRO Stage 1, 2 ou 3)
  • Você precisa de recursos adicionais, como fusão de acúmulo de gradiente ou descarregamento de CPU
  • Você está trabalhando com modelos de linguagem grandes (parâmetros de 1B a 100B+)

Para casos de uso mais simples, considere DDP. Para treinamento de modelo grande nativo do PyTorch, consulte FSDP.

Exemplos

Tutorial Descrição
Ajuste refinado supervisionado usando TRL e DeepSpeed ZeRO Stage 3 Use a API python de GPU sem servidor para executar o SFT (ajuste fino supervisionado) usando a biblioteca TRL (Transformer Reinforcement Learning) com otimização do DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único.