Nota
L'accés a aquesta pàgina requereix autorització. Pots provar d'iniciar sessió o canviar de directori.
L'accés a aquesta pàgina requereix autorització. Pots provar de canviar directoris.
Importante
Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administración de versiones preliminares de Azure Databricks.
En esta página se incluyen ejemplos de notebooks para usar el entrenamiento Data Parallel Totalmente Fragmentado (FSDP) en el cómputo de GPU sin servidor. FSDP particiona los parámetros del modelo, los degradados y los estados del optimizador entre GPU, lo que permite el entrenamiento de modelos muy grandes que no caben en la memoria de una sola GPU.
Cuándo usar FSDP
Utilice FSDP cuando:
- El modelo es demasiado grande para caber en la memoria de una sola GPU.
- Debe entrenar modelos en el intervalo de parámetros de 20B a 120B+
- Desea una eficiencia de memoria superior a la que proporciona DDP.
Para los modelos más pequeños que caben en una sola memoria de GPU, considere DDP por motivos de simplicidad. Para conocer las características avanzadas de optimización de memoria, consulte DeepSpeed.
Entrenamiento de un modelo de Transformador con 10 millones de parámetros mediante FSDP2
En el cuaderno siguiente se muestra el entrenamiento distribuido de un modelo transformador de 10 millones de parámetros mediante la biblioteca FSDP2 .
PyTorch FSDP
Entrenamiento del modelo openAI GPT-OSS 120B mediante TRL y FSDP
En este cuaderno se muestra cómo ejecutar el ajuste fino supervisado (SFT) en un modelo de GPT-OSS 120B mediante FSDP2 y la biblioteca Transformers Reinforcement Learning (TRL). En este ejemplo se utiliza FSDP para reducir el consumo de memoria y DDP para escalar el tamaño global del lote a través de 8 GPUs H100.