Обучение полного сегментированного параллелизма данных (FSDP)

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для использования обучения полного шардированного параллелизма данных (FSDP) в среде выполнения ИИ. FSDP сегментирует параметры модели, градиенты и состояния оптимизатора между GPU, что позволяет обучать очень большие модели, которые не помещаются в памяти одного GPU.

Когда следует использовать FSDP

Используйте FSDP, когда:

Ваша модель слишком велика, чтобы поместиться в память одного GPU
Необходимо обучить модели в диапазоне параметров от 20B до 120B+
Требуется больше эффективности памяти, чем DDP обеспечивает

Для небольших моделей, которые соответствуют одной памяти GPU, рекомендуется использовать DDP для простоты. Дополнительные сведения о функциях оптимизации памяти см. в разделе DeepSpeed.

Примеры

Руководство	Описание
Обучение модели преобразователя с 10-миллионными параметрами с помощью FSDP2	Эта записная книжка демонстрирует распределенное обучение модели преобразователя 10 миллионов параметров с помощью библиотеки FSDP2 .
Обучение модели OpenAI GPT-OSS 120B с помощью TRL и FSDP	В этой записной книжке показано, как выполнять защищенную точную настройку (SFT) в модели GPT-OSS 120B с помощью FSDP2 и библиотеки обучения с подкреплением преобразователей (TRL). В этом примере используется FSDP для уменьшения потребления памяти и DDP для масштабирования глобального размера пакета на 8 GPU H100.

Руководство

Описание

Обучение модели преобразователя с 10-миллионными параметрами с помощью FSDP2

Эта записная книжка демонстрирует распределенное обучение модели преобразователя 10 миллионов параметров с помощью библиотеки FSDP2 .

Обучение модели OpenAI GPT-OSS 120B с помощью TRL и FSDP

В этой записной книжке показано, как выполнять защищенную точную настройку (SFT) в модели GPT-OSS 120B с помощью FSDP2 и библиотеки обучения с подкреплением преобразователей (TRL). В этом примере используется FSDP для уменьшения потребления памяти и DDP для масштабирования глобального размера пакета на 8 GPU H100.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-21

Поделиться через

Обучение полного сегментированного параллелизма данных (FSDP)

Когда следует использовать FSDP

Примеры

Обратная связь

Дополнительные ресурсы