Поделиться через


Обучение распределенного параллелизма данных (DDP)

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице представлены примеры записных книжек для использования обучения с распределённым параллелизмом данных (DDP) на безсерверной GPU-вычислительной мощности. DDP — это наиболее распространенный метод параллелизма для распределенного обучения, где полная модель реплицируется на каждом GPU, а пакеты данных делятся между GPU.

Когда следует использовать DDP

Используйте DDP, когда:

  • Ваша модель полностью помещается в память одного GPU.
  • Вы хотите масштабировать обучение, увеличив пропускную способность данных
  • Вам нужен самый простой распределенный подход к обучению с автоматической поддержкой в большинстве платформ.

Для более крупных моделей, которые не соответствуют одной памяти GPU, рекомендуется вместо этого использовать FSDP или DeepSpeed .

Обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью PyTorch DDP

Следующая записная книжка демонстрирует распределенное обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью модуля DDP PyTorch в Azure Databricks с бессерверными ресурсами GPU.

PyTorch DDP

Получите ноутбук

Обучение модели OpenAI GPT-OSS 20B в 8xH100 с помощью TRL и DDP

В этой записной книжке показано, как использовать Python API для бессерверного GPU для запуска контролируемой тонкой настройки (SFT) на модели GPT-OSS 20B от Hugging Face с помощью библиотеки Обучения с подкреплением с использованием трансформеров (TRL). В этом примере DDP используется на всех 8 GPU H100 на узле для увеличения глобального размера пакета.

TRL DDP

Получите ноутбук

Распределенная тонкая настройка Llama 3.2 3B с помощью Unsloth

В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Llama 3.2 3B с библиотекой Unsloth в 8 A10 GPU. Unsloth обеспечивает оптимизацию обучения с экономией памяти и использует DDP на базе Hugging Face Accelerate.

Ускорение DDP

Получите ноутбук

Распределенная точная настройка Olmo3 7B с помощью Axolotl

В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Olmo3 7B с библиотекой Axolotl в 16 GPU H100. Axolotl предназначен для оптимизации процессов после обучения и тонкой настройки для самых последних LLM.

Axolotl DDP

Получите ноутбук

Распределенная тонкая настройка Llama 3.2 8B с использованием Mosaic LLM Foundry

В этом блокноте показано, как использовать API Python для бессерверного GPU, чтобы точно настроить модель Llama 3.2 8B с библиотекой Mosaic LLM Foundry на 16 GPU A10. Мозаика LLM Foundry предоставляет простые и гибкие API для обучения больших языковых моделей.

Notebook

Получите ноутбук

Распределенное обучение с помощью Ray Train (компьютерное зрение)

Эта записная книжка демонстрирует распределенное обучение модели PyTorch ResNet на наборе данных FashionMNIST с помощью Ray Train и Ray Data в безсерверных кластерах GPU Databricks. Ray Train предоставляет высокоуровневую распределенную оркестрацию обучения и использует DDP в качестве базовой стратегии параллелизма. В этом примере описывается настройка хранилища каталога Unity, настройка Ray для обучения на нескольких узлах с использованием GPU, ведение журналов и регистрация моделей в MLflow и оценка производительности моделей.

Рэй DDP

Получите ноутбук

Обучение рекомендательной системы с двумя башнями с помощью PyTorch Lightning

В этом ноутбуке показано, как обучить двухблочную модель рекомендаций на бессерверных GPU-вычислениях с помощью PyTorch Lightning. PyTorch Lightning предоставляет высокоуровневый интерфейс, который автоматически обрабатывает конфигурацию DDP для обучения с несколькими GPU. Этот пример включает подготовку данных с использованием формата Mosaic Streaming (MDS) и распределенного обучения на GPU A10 или H100.

Просмотрите страницу примеров рекомендаций глубокого обучения для получения всех записных книжек, включая:

  • Подготовка данных и преобразование формата MDS
  • Обучение двухбашенной рекомендательной системы с использованием PyTorch Lightning