Treinamento distribuído usando DeepSpeed

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de bloco de anotações para treinamento distribuído usando o DeepSpeed na computação de GPU sem servidor. O DeepSpeed fornece técnicas avançadas de otimização de memória através dos seus estágios ZeRO (Zero Redundancy Optimizer), permitindo um treino eficiente de grandes modelos.

Quando usar o DeepSpeed

Use DeepSpeed quando:

É necessário uma otimização avançada da memória para além do FSDP padrão
Queres um controlo detalhado sobre a fragmentação do estado do otimizador (ZeRO Estágio 1, 2 ou 3)
Precisas de funcionalidades adicionais como fusão de acumulação de gradiente ou descarregamento de CPU
Estás a trabalhar com grandes modelos de linguagem (parâmetros 1B a 100B+)

Para casos de uso mais simples, considere o DDP. Para o treino de grandes modelos nativos do PyTorch, veja FSDP.

Ajuste fino supervisionado usando TRL e DeepSpeed ZeRO Stage 3

Este portátil demonstra como usar a API Python da GPU Serverless para executar ajuste fino supervisionado (SFT) usando a biblioteca Transformer Reinforcement Learning (TRL) com otimização DeepSpeed ZeRO Stage 3 numa GPU A10 de nó único. Essa abordagem pode ser estendida para configurações de vários nós.

TRL DeepSpeed

Obter bloco de notas

Feedback

Esta página foi útil?

Last updated on 2025-12-19