Compartilhar via


Treinamento distribuído usando DeepSpeed

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de notebook para treinamento distribuído usando o DeepSpeed na computação de GPU sem servidor. O DeepSpeed fornece técnicas avançadas de otimização de memória por meio de seus estágios do ZeRO (Otimizador de Redundância Zero), permitindo o treinamento eficiente de modelos grandes.

Quando usar o DeepSpeed

Use DeepSpeed quando:

  • Você precisa de otimização de memória avançada além do FSDP padrão
  • Você deseja um controle refinado sobre a fragmentação de estado do otimizador (ZeRO Stage 1, 2 ou 3)
  • Você precisa de recursos adicionais, como fusão de acúmulo de gradiente ou descarregamento de CPU
  • Você está trabalhando com modelos de linguagem grandes (parâmetros de 1B a 100B+)

Para casos de uso mais simples, considere DDP. Para treinamento de modelo grande nativo do PyTorch, consulte FSDP.

Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3

Este notebook demonstra como utilizar a API Python para GPU sem servidor para realizar o SFT (ajuste fino supervisionado) usando a biblioteca TRL (Transformer Reinforcement Learning) com otimização de DeepSpeed ZeRO Stage 3 em uma GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.

TRL DeepSpeed

Obter laptop