Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".
На этой странице представлены примеры записных книжек для использования обучения с распределённым параллелизмом данных (DDP) на безсерверной GPU-вычислительной мощности. DDP — это наиболее распространенный метод параллелизма для распределенного обучения, где полная модель реплицируется на каждом GPU, а пакеты данных делятся между GPU.
Когда следует использовать DDP
Используйте DDP, когда:
- Ваша модель полностью помещается в память одного GPU.
- Вы хотите масштабировать обучение, увеличив пропускную способность данных
- Вам нужен самый простой распределенный подход к обучению с автоматической поддержкой в большинстве платформ.
Для более крупных моделей, которые не соответствуют одной памяти GPU, рекомендуется вместо этого использовать FSDP или DeepSpeed .
Обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью PyTorch DDP
Следующая записная книжка демонстрирует распределенное обучение простой многоуровневой нейронной сети perceptron (MLP) с помощью модуля DDP PyTorch в Azure Databricks с бессерверными ресурсами GPU.
PyTorch DDP
Обучение модели OpenAI GPT-OSS 20B в 8xH100 с помощью TRL и DDP
В этой записной книжке показано, как использовать Python API для бессерверного GPU для запуска контролируемой тонкой настройки (SFT) на модели GPT-OSS 20B от Hugging Face с помощью библиотеки Обучения с подкреплением с использованием трансформеров (TRL). В этом примере DDP используется на всех 8 GPU H100 на узле для увеличения глобального размера пакета.
TRL DDP
Распределенная тонкая настройка Llama 3.2 3B с помощью Unsloth
В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Llama 3.2 3B с библиотекой Unsloth в 8 A10 GPU. Unsloth обеспечивает оптимизацию обучения с экономией памяти и использует DDP на базе Hugging Face Accelerate.
Ускорение DDP
Распределенная точная настройка Olmo3 7B с помощью Axolotl
В этой записной книжке показано, как использовать API Python для бессерверного GPU для точной настройки модели Olmo3 7B с библиотекой Axolotl в 16 GPU H100. Axolotl предназначен для оптимизации процессов после обучения и тонкой настройки для самых последних LLM.
Axolotl DDP
Распределенная тонкая настройка Llama 3.2 8B с использованием Mosaic LLM Foundry
В этом блокноте показано, как использовать API Python для бессерверного GPU, чтобы точно настроить модель Llama 3.2 8B с библиотекой Mosaic LLM Foundry на 16 GPU A10. Мозаика LLM Foundry предоставляет простые и гибкие API для обучения больших языковых моделей.
Notebook
Распределенное обучение с помощью Ray Train (компьютерное зрение)
Эта записная книжка демонстрирует распределенное обучение модели PyTorch ResNet на наборе данных FashionMNIST с помощью Ray Train и Ray Data в безсерверных кластерах GPU Databricks. Ray Train предоставляет высокоуровневую распределенную оркестрацию обучения и использует DDP в качестве базовой стратегии параллелизма. В этом примере описывается настройка хранилища каталога Unity, настройка Ray для обучения на нескольких узлах с использованием GPU, ведение журналов и регистрация моделей в MLflow и оценка производительности моделей.
Рэй DDP
Обучение рекомендательной системы с двумя башнями с помощью PyTorch Lightning
В этом ноутбуке показано, как обучить двухблочную модель рекомендаций на бессерверных GPU-вычислениях с помощью PyTorch Lightning. PyTorch Lightning предоставляет высокоуровневый интерфейс, который автоматически обрабатывает конфигурацию DDP для обучения с несколькими GPU. Этот пример включает подготовку данных с использованием формата Mosaic Streaming (MDS) и распределенного обучения на GPU A10 или H100.
Просмотрите страницу примеров рекомендаций глубокого обучения для получения всех записных книжек, включая:
- Подготовка данных и преобразование формата MDS
- Обучение двухбашенной рекомендательной системы с использованием PyTorch Lightning