Поделиться через


Обучение полного сегментированного параллелизма данных (FSDP)

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для использования обучения полного шардированного параллелизма данных (FSDP) в среде выполнения ИИ. FSDP сегментирует параметры модели, градиенты и состояния оптимизатора между GPU, что позволяет обучать очень большие модели, которые не помещаются в памяти одного GPU.

Когда следует использовать FSDP

Используйте FSDP, когда:

  • Ваша модель слишком велика, чтобы поместиться в память одного GPU
  • Необходимо обучить модели в диапазоне параметров от 20B до 120B+
  • Требуется больше эффективности памяти, чем DDP обеспечивает

Для небольших моделей, которые соответствуют одной памяти GPU, рекомендуется использовать DDP для простоты. Дополнительные сведения о функциях оптимизации памяти см. в разделе DeepSpeed.

Примеры

Руководство Описание
Обучение модели преобразователя с 10-миллионными параметрами с помощью FSDP2 Эта записная книжка демонстрирует распределенное обучение модели преобразователя 10 миллионов параметров с помощью библиотеки FSDP2 .
Обучение модели OpenAI GPT-OSS 120B с помощью TRL и FSDP В этой записной книжке показано, как выполнять защищенную точную настройку (SFT) в модели GPT-OSS 120B с помощью FSDP2 и библиотеки обучения с подкреплением преобразователей (TRL). В этом примере используется FSDP для уменьшения потребления памяти и DDP для масштабирования глобального размера пакета на 8 GPU H100.