Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".
На этой странице представлены примеры ноутбуков для использования обучения по методу FSDP (Fully Sharded Data Parallel) на бессерверных GPU вычислениях. FSDP сегментирует параметры модели, градиенты и состояния оптимизатора между GPU, что позволяет обучать очень большие модели, которые не помещаются в памяти одного GPU.
Когда следует использовать FSDP
Используйте FSDP, когда:
- Ваша модель слишком велика, чтобы поместиться в память одного GPU
- Необходимо обучить модели в диапазоне параметров от 20B до 120B+
- Требуется больше эффективности памяти, чем DDP обеспечивает
Для небольших моделей, которые соответствуют одной памяти GPU, рекомендуется использовать DDP для простоты. Дополнительные сведения о функциях оптимизации памяти см. в разделе DeepSpeed.
Обучение модели преобразователя с 10-миллионными параметрами с помощью FSDP2
В следующем ноутбуке демонстрируется распределенное обучение модели Transformer с 10 миллионами параметров, используя библиотеку FSDP2.
PyTorch FSDP
Обучение модели OpenAI GPT-OSS 120B с помощью TRL и FSDP
В этой записной книжке показано, как выполнять защищенную точную настройку (SFT) в модели GPT-OSS 120B с помощью FSDP2 и библиотеки обучения с подкреплением преобразователей (TRL). В этом примере используется FSDP для уменьшения потребления памяти и DDP для масштабирования глобального размера пакета на 8 GPU H100.