Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".
На этой странице приведены примеры записных книжек для обучения распределенного параллелизма данных (DDP) в среде выполнения ИИ. DDP — это наиболее распространенный метод параллелизма для распределенного обучения, где полная модель реплицируется на каждом GPU, а пакеты данных делятся между GPU.
Когда следует использовать DDP
Используйте DDP, когда:
- Ваша модель полностью помещается в память одного GPU.
- Вы хотите масштабировать обучение, увеличив пропускную способность данных
- Вам нужен самый простой распределенный подход к обучению с автоматической поддержкой в большинстве платформ.
Для более крупных моделей, которые не соответствуют одной памяти GPU, рекомендуется вместо этого использовать FSDP или DeepSpeed .
Примеры
| Руководство | Описание |
|---|---|
| Обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью PyTorch DDP | Этот ноутбук демонстрирует распределенное обучение простой многоуровневой сети перцептронов (MLP) с помощью модуля DDP PyTorch в Azure Databricks с бессерверными ресурсами GPU. |
| Обучение модели OpenAI GPT-OSS 20B в 8xH100 с помощью TRL и DDP | В этой записной книжке показано, как использовать Python API для бессерверного GPU для запуска контролируемой тонкой настройки (SFT) на модели GPT-OSS 20B от Hugging Face с помощью библиотеки Обучения с подкреплением с использованием трансформеров (TRL). В этом примере DDP используется на всех 8 GPU H100 на узле для увеличения глобального размера пакета. |
| Распределенная тонкая настройка Ллама 3.2 3B с помощью Unsloth | В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Llama 3.2 3B с библиотекой Unsloth в 8 A10 GPU. Unsloth обеспечивает оптимизацию обучения с эффективным использованием памяти и внутренне использует DDP через платформу Accelerate от Hugging Face. |
| Точная настройка модели Olmo3 7B с помощью Axolotl в распределенном режиме | В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Olmo3 7B с библиотекой Axolotl в 16 GPU H100. Axolotl предназначен для оптимизации процессов после обучения и тонкой настройки для самых последних LLM. |
| Обучение двухбашенной рекомендательной системы с использованием PyTorch Lightning | В этом блокноте объясняется, как обучить двухбашенную модель рекомендаций с помощью PyTorch Lightning на сервере без GPU. PyTorch Lightning предоставляет высокоуровневый интерфейс, который автоматически обрабатывает конфигурацию DDP для обучения с несколькими GPU. Этот пример включает подготовку данных с использованием формата Mosaic Streaming (MDS) и распределенного обучения на GPU A10 или H100. Просмотрите страницу примеров рекомендаций глубокого обучения для получения всех записных книжек, включая:
|
Обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью PyTorch DDP
Следующая записная книжка демонстрирует распределенное обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью модуля DDP PyTorch в Azure Databricks с бессерверными ресурсами GPU.
PyTorch DDP
Обучение рекомендательной системы с двумя башнями с помощью PyTorch Lightning
В этом ноутбуке показано, как обучить двухблочную модель рекомендаций на бессерверных GPU-вычислениях с помощью PyTorch Lightning. PyTorch Lightning предоставляет высокоуровневый интерфейс, который автоматически обрабатывает конфигурацию DDP для обучения с несколькими GPU. Этот пример включает подготовку данных с использованием формата Mosaic Streaming (MDS) и распределенного обучения на GPU A10 или H100.
Просмотрите страницу примеров рекомендаций глубокого обучения для получения всех записных книжек, включая:
- Подготовка данных и преобразование формата MDS
- Обучение двухбашенной рекомендательной системы с использованием PyTorch Lightning