Compartilhar via


Treinamento do FSDP (Fully Sharded Data Parallel)

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de notebooks para o uso do treinamento FSDP (Fully Sharded Data Parallel) no AI Runtime. O FSDP fragmenta parâmetros de modelo, gradientes e estados de otimização entre GPUs, permitindo o treinamento de modelos muito grandes que não cabem na memória de uma única GPU.

Quando usar o FSDP

Quando usar FSDP:

  • Seu modelo é muito grande para caber na memória de uma única GPU
  • Você precisa treinar modelos no intervalo de parâmetros de 20B a 120B+
  • Você deseja mais eficiência de memória do que o DDP fornece

Para modelos menores que se encaixam na memória de GPU única, considere o DDP para simplificar. Para obter recursos avançados de otimização de memória, consulte DeepSpeed.

Exemplos

Tutorial Descrição
Treinamento de um modelo transformer com 10 milhões de parâmetros usando FSDP2 Este notebook demonstra o treinamento distribuído de um modelo Transformer com 10 milhões de parâmetros usando a biblioteca FSDP2.
Treinamento do modelo OpenAI GPT-OSS 120B usando TRL e FSDP Este notebook demonstra como executar o ajuste refinado supervisionado (SFT) em um modelo GPT-OSS 120B usando FSDP2 e a biblioteca trl (Transformer Reinforcement Learning ). Este exemplo aproveita o FSDP para reduzir o consumo de memória e o DDP para dimensionar o tamanho global do lote em 8 GPUs H100.