Compartilhar via


Treinamento do FSDP (Fully Sharded Data Parallel)

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página contém exemplos de notebooks para o uso do treinamento Fully Sharded Data Parallel (FSDP) em computação de GPU sem servidor. O FSDP fragmenta parâmetros de modelo, gradientes e estados de otimização entre GPUs, permitindo o treinamento de modelos muito grandes que não cabem na memória de uma única GPU.

Quando usar o FSDP

Quando usar FSDP:

  • Seu modelo é muito grande para caber na memória de uma única GPU
  • Você precisa treinar modelos no intervalo de parâmetros de 20B a 120B+
  • Você deseja mais eficiência de memória do que o DDP fornece

Para modelos menores que se encaixam na memória de GPU única, considere o DDP para simplificar. Para obter recursos avançados de otimização de memória, consulte DeepSpeed.

Treinamento de um modelo transformer com 10 milhões de parâmetros usando FSDP2

O notebook a seguir demonstra o treinamento distribuído de um modelo Transformer com 10 milhões de parâmetros, usando a biblioteca FSDP2.

PyTorch FSDP

Obter laptop

Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP

Este notebook demonstra como executar o ajuste refinado supervisionado (SFT) em um modelo GPT-OSS 120B usando FSDP2 e a biblioteca trl (Transformer Reinforcement Learning ). Este exemplo aproveita o FSDP para reduzir o consumo de memória e o DDP para dimensionar o tamanho global do lote em 8 GPUs H100.

TRL FSDP

Obter laptop