Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".
На этой странице приведены примеры записных книжек для использования обучения полного шардированного параллелизма данных (FSDP) в среде выполнения ИИ. FSDP сегментирует параметры модели, градиенты и состояния оптимизатора между GPU, что позволяет обучать очень большие модели, которые не помещаются в памяти одного GPU.
Когда следует использовать FSDP
Используйте FSDP, когда:
- Ваша модель слишком велика, чтобы поместиться в память одного GPU
- Необходимо обучить модели в диапазоне параметров от 20B до 120B+
- Требуется больше эффективности памяти, чем DDP обеспечивает
Для небольших моделей, которые соответствуют одной памяти GPU, рекомендуется использовать DDP для простоты. Дополнительные сведения о функциях оптимизации памяти см. в разделе DeepSpeed.
Примеры
| Руководство | Описание |
|---|---|
| Обучение модели преобразователя с 10-миллионными параметрами с помощью FSDP2 | Эта записная книжка демонстрирует распределенное обучение модели преобразователя 10 миллионов параметров с помощью библиотеки FSDP2 . |
| Обучение модели OpenAI GPT-OSS 120B с помощью TRL и FSDP | В этой записной книжке показано, как выполнять защищенную точную настройку (SFT) в модели GPT-OSS 120B с помощью FSDP2 и библиотеки обучения с подкреплением преобразователей (TRL). В этом примере используется FSDP для уменьшения потребления памяти и DDP для масштабирования глобального размера пакета на 8 GPU H100. |