Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página tem exemplos de cadernos para utilização de treino Fully Sharded Data Parallel (FSDP) em tempo de execução de IA. Os fragmentos FSDP modelam parâmetros, gradientes e estados dos otimizadores entre GPUs, permitindo o treino de modelos muito grandes que não cabem na memória de uma única GPU.
Quando usar FSDP
Utilize o FSDP quando:
- O teu modelo é demasiado grande para caber na memória de uma única GPU
- É preciso treinar modelos na gama de parâmetros 20B a 120B+
- Queres mais eficiência de memória do que o DDP oferece
Para modelos mais pequenos que cabem numa única memória GPU, considere o DDP para simplificar. Para funcionalidades avançadas de otimização de memória, consulte DeepSpeed.
Exemplos
| Tutorial | Descrição |
|---|---|
| Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2 | Este caderno demonstra treino distribuído de um modelo Transformer de 10 milhões de parâmetros usando a biblioteca FSDP2 . |
| Treino OpenAI GPT-OSS modelo 120B usando TRL e FSDP | Este caderno demonstra como executar ajuste fino supervisionado (SFT) num modelo GPT-OSS 120B usando FSDP2 e a biblioteca Transformer Reinforcement Learning (TRL ). Este exemplo utiliza o FSDP para reduzir o consumo de memória e o DDP para escalar o tamanho global do lote em 8 GPUs H100. |