Поделиться через


Обучение полного сегментированного параллелизма данных (FSDP)

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице представлены примеры ноутбуков для использования обучения по методу FSDP (Fully Sharded Data Parallel) на бессерверных GPU вычислениях. FSDP сегментирует параметры модели, градиенты и состояния оптимизатора между GPU, что позволяет обучать очень большие модели, которые не помещаются в памяти одного GPU.

Когда следует использовать FSDP

Используйте FSDP, когда:

  • Ваша модель слишком велика, чтобы поместиться в память одного GPU
  • Необходимо обучить модели в диапазоне параметров от 20B до 120B+
  • Требуется больше эффективности памяти, чем DDP обеспечивает

Для небольших моделей, которые соответствуют одной памяти GPU, рекомендуется использовать DDP для простоты. Дополнительные сведения о функциях оптимизации памяти см. в разделе DeepSpeed.

Обучение модели преобразователя с 10-миллионными параметрами с помощью FSDP2

В следующем ноутбуке демонстрируется распределенное обучение модели Transformer с 10 миллионами параметров, используя библиотеку FSDP2.

PyTorch FSDP

Получите ноутбук

Обучение модели OpenAI GPT-OSS 120B с помощью TRL и FSDP

В этой записной книжке показано, как выполнять защищенную точную настройку (SFT) в модели GPT-OSS 120B с помощью FSDP2 и библиотеки обучения с подкреплением преобразователей (TRL). В этом примере используется FSDP для уменьшения потребления памяти и DDP для масштабирования глобального размера пакета на 8 GPU H100.

TRL FSDP

Получите ноутбук