Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página contém exemplos de notebooks para o uso do treinamento Fully Sharded Data Parallel (FSDP) em computação de GPU sem servidor. O FSDP fragmenta parâmetros de modelo, gradientes e estados de otimização entre GPUs, permitindo o treinamento de modelos muito grandes que não cabem na memória de uma única GPU.
Quando usar o FSDP
Quando usar FSDP:
- Seu modelo é muito grande para caber na memória de uma única GPU
- Você precisa treinar modelos no intervalo de parâmetros de 20B a 120B+
- Você deseja mais eficiência de memória do que o DDP fornece
Para modelos menores que se encaixam na memória de GPU única, considere o DDP para simplificar. Para obter recursos avançados de otimização de memória, consulte DeepSpeed.
Treinamento de um modelo transformer com 10 milhões de parâmetros usando FSDP2
O notebook a seguir demonstra o treinamento distribuído de um modelo Transformer com 10 milhões de parâmetros, usando a biblioteca FSDP2.
PyTorch FSDP
Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP
Este notebook demonstra como executar o ajuste refinado supervisionado (SFT) em um modelo GPT-OSS 120B usando FSDP2 e a biblioteca trl (Transformer Reinforcement Learning ). Este exemplo aproveita o FSDP para reduzir o consumo de memória e o DDP para dimensionar o tamanho global do lote em 8 GPUs H100.