Partilhar via


Treinamento distribuído usando DeepSpeed

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de bloco de anotações para treinamento distribuído usando o DeepSpeed na computação de GPU sem servidor. O DeepSpeed fornece técnicas avançadas de otimização de memória através dos seus estágios ZeRO (Zero Redundancy Optimizer), permitindo um treino eficiente de grandes modelos.

Quando usar o DeepSpeed

Use DeepSpeed quando:

  • É necessário uma otimização avançada da memória para além do FSDP padrão
  • Queres um controlo detalhado sobre a fragmentação do estado do otimizador (ZeRO Estágio 1, 2 ou 3)
  • Precisas de funcionalidades adicionais como fusão de acumulação de gradiente ou descarregamento de CPU
  • Estás a trabalhar com grandes modelos de linguagem (parâmetros 1B a 100B+)

Para casos de uso mais simples, considere o DDP. Para o treino de grandes modelos nativos do PyTorch, veja FSDP.

Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3

Este portátil demonstra como usar a API Python da GPU Serverless para executar ajuste fino supervisionado (SFT) usando a biblioteca Transformer Reinforcement Learning (TRL) com otimização DeepSpeed ZeRO Stage 3 numa GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.

TRL DeepSpeed

Obter bloco de notas