Поделиться через


Обучение распределенного параллелизма данных (DDP)

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для обучения распределенного параллелизма данных (DDP) в среде выполнения ИИ. DDP — это наиболее распространенный метод параллелизма для распределенного обучения, где полная модель реплицируется на каждом GPU, а пакеты данных делятся между GPU.

Когда следует использовать DDP

Используйте DDP, когда:

  • Ваша модель полностью помещается в память одного GPU.
  • Вы хотите масштабировать обучение, увеличив пропускную способность данных
  • Вам нужен самый простой распределенный подход к обучению с автоматической поддержкой в большинстве платформ.

Для более крупных моделей, которые не соответствуют одной памяти GPU, рекомендуется вместо этого использовать FSDP или DeepSpeed .

Примеры

Руководство Описание
Обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью PyTorch DDP Этот ноутбук демонстрирует распределенное обучение простой многоуровневой сети перцептронов (MLP) с помощью модуля DDP PyTorch в Azure Databricks с бессерверными ресурсами GPU.
Обучение модели OpenAI GPT-OSS 20B в 8xH100 с помощью TRL и DDP В этой записной книжке показано, как использовать Python API для бессерверного GPU для запуска контролируемой тонкой настройки (SFT) на модели GPT-OSS 20B от Hugging Face с помощью библиотеки Обучения с подкреплением с использованием трансформеров (TRL). В этом примере DDP используется на всех 8 GPU H100 на узле для увеличения глобального размера пакета.
Распределенная тонкая настройка Ллама 3.2 3B с помощью Unsloth В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Llama 3.2 3B с библиотекой Unsloth в 8 A10 GPU. Unsloth обеспечивает оптимизацию обучения с эффективным использованием памяти и внутренне использует DDP через платформу Accelerate от Hugging Face.
Точная настройка модели Olmo3 7B с помощью Axolotl в распределенном режиме В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Olmo3 7B с библиотекой Axolotl в 16 GPU H100. Axolotl предназначен для оптимизации процессов после обучения и тонкой настройки для самых последних LLM.
Обучение двухбашенной рекомендательной системы с использованием PyTorch Lightning В этом блокноте объясняется, как обучить двухбашенную модель рекомендаций с помощью PyTorch Lightning на сервере без GPU. PyTorch Lightning предоставляет высокоуровневый интерфейс, который автоматически обрабатывает конфигурацию DDP для обучения с несколькими GPU. Этот пример включает подготовку данных с использованием формата Mosaic Streaming (MDS) и распределенного обучения на GPU A10 или H100.
Просмотрите страницу примеров рекомендаций глубокого обучения для получения всех записных книжек, включая:
  • Подготовка данных и преобразование формата MDS
  • Обучение двухбашенной рекомендательной системы с использованием PyTorch Lightning

Обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью PyTorch DDP

Следующая записная книжка демонстрирует распределенное обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью модуля DDP PyTorch в Azure Databricks с бессерверными ресурсами GPU.

PyTorch DDP

Получите ноутбук

Обучение рекомендательной системы с двумя башнями с помощью PyTorch Lightning

В этом ноутбуке показано, как обучить двухблочную модель рекомендаций на бессерверных GPU-вычислениях с помощью PyTorch Lightning. PyTorch Lightning предоставляет высокоуровневый интерфейс, который автоматически обрабатывает конфигурацию DDP для обучения с несколькими GPU. Этот пример включает подготовку данных с использованием формата Mosaic Streaming (MDS) и распределенного обучения на GPU A10 или H100.

Просмотрите страницу примеров рекомендаций глубокого обучения для получения всех записных книжек, включая:

  • Подготовка данных и преобразование формата MDS
  • Обучение двухбашенной рекомендательной системы с использованием PyTorch Lightning