Partilhar via


Treinamento FullSharded Data Parallel (FSDP)

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de blocos de anotações para usar o treinamento FSDP (Fully Sharded Data Parallel) na computação de GPU sem servidor. Os fragmentos FSDP modelam parâmetros, gradientes e estados dos otimizadores entre GPUs, permitindo o treino de modelos muito grandes que não cabem na memória de uma única GPU.

Quando usar FSDP

Utilize o FSDP quando:

  • O teu modelo é demasiado grande para caber na memória de uma única GPU
  • É preciso treinar modelos na gama de parâmetros 20B a 120B+
  • Queres mais eficiência de memória do que o DDP oferece

Para modelos mais pequenos que cabem numa única memória GPU, considere o DDP para simplificar. Para funcionalidades avançadas de otimização de memória, consulte DeepSpeed.

Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2

O caderno a seguir demonstra o treinamento distribuído de um modelo de transformador de 10 milhões de parâmetros usando a biblioteca FSDP2 .

PyTorch FSDP

Obter bloco de notas

Treinar o modelo OpenAI GPT-OSS 120B usando TRL e FSDP

Este caderno demonstra como executar ajuste fino supervisionado (SFT) num modelo GPT-OSS 120B usando FSDP2 e a biblioteca Transformer Reinforcement Learning (TRL ). Este exemplo utiliza o FSDP para reduzir o consumo de memória e o DDP para escalar o tamanho global do lote em 8 GPUs H100.

TRL FSDP

Obter bloco de notas