Treinamento FullSharded Data Parallel (FSDP)

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de cadernos para utilização de treino Fully Sharded Data Parallel (FSDP) em tempo de execução de IA. Os fragmentos FSDP modelam parâmetros, gradientes e estados dos otimizadores entre GPUs, permitindo o treino de modelos muito grandes que não cabem na memória de uma única GPU.

Quando usar FSDP

Utilize o FSDP quando:

O teu modelo é demasiado grande para caber na memória de uma única GPU
É preciso treinar modelos na gama de parâmetros 20B a 120B+
Queres mais eficiência de memória do que o DDP oferece

Para modelos mais pequenos que cabem numa única memória GPU, considere o DDP para simplificar. Para funcionalidades avançadas de otimização de memória, consulte DeepSpeed.

Exemplos

Tutorial	Descrição
Treinar um modelo Transformer com 10 milhões de parâmetros usando FSDP2	Este caderno demonstra treino distribuído de um modelo Transformer de 10 milhões de parâmetros usando a biblioteca FSDP2 .
Treino OpenAI GPT-OSS modelo 120B usando TRL e FSDP	Este caderno demonstra como executar ajuste fino supervisionado (SFT) num modelo GPT-OSS 120B usando FSDP2 e a biblioteca Transformer Reinforcement Learning (TRL ). Este exemplo utiliza o FSDP para reduzir o consumo de memória e o DDP para escalar o tamanho global do lote em 8 GPUs H100.

Comentários

Esta página foi útil?

Last updated on 2026-03-21

Partilhar via

Treinamento FullSharded Data Parallel (FSDP)

Quando usar FSDP

Exemplos

Comentários

Recursos adicionais