Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página tem exemplos de blocos de anotações para usar o treinamento FSDP (Fully Sharded Data Parallel) na computação de GPU sem servidor. Os fragmentos FSDP modelam parâmetros, gradientes e estados dos otimizadores entre GPUs, permitindo o treino de modelos muito grandes que não cabem na memória de uma única GPU.
Quando usar FSDP
Utilize o FSDP quando:
- O teu modelo é demasiado grande para caber na memória de uma única GPU
- É preciso treinar modelos na gama de parâmetros 20B a 120B+
- Queres mais eficiência de memória do que o DDP oferece
Para modelos mais pequenos que cabem numa única memória GPU, considere o DDP para simplificar. Para funcionalidades avançadas de otimização de memória, consulte DeepSpeed.
Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2
O caderno a seguir demonstra o treinamento distribuído de um modelo de transformador de 10 milhões de parâmetros usando a biblioteca FSDP2 .
PyTorch FSDP
Treinar o modelo OpenAI GPT-OSS 120B usando TRL e FSDP
Este caderno demonstra como executar ajuste fino supervisionado (SFT) num modelo GPT-OSS 120B usando FSDP2 e a biblioteca Transformer Reinforcement Learning (TRL ). Este exemplo utiliza o FSDP para reduzir o consumo de memória e o DDP para escalar o tamanho global do lote em 8 GPUs H100.