Поделиться через


Распределенное обучение с несколькими GPU и несколькими узлами

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для многоузлового и распределенного обучения с несколькими GPU с использованием бессерверных вычислений GPU. В этих примерах показано, как масштабировать обучение на нескольких GPU и узлах для повышения производительности.

Выбор метода параллелизма

При масштабировании обучения модели на нескольких GPU выбор правильного метода параллелизма зависит от размера модели, доступной памяти GPU и требований к производительности.

Способ Когда использовать
DDP (параллельная распределенная передача данных) Полная модель соответствует одной памяти GPU; требуется масштабирование пропускной способности данных
FSDP (полностью шардированный параллельный доступ к данным) Очень большие модели, которые не помещаются в память одного GPU
DeepSpeed ZeRO Большие модели с расширенными потребностями оптимизации памяти

Подробные сведения о каждом методе см. в разделе DDP, FSDP и DeepSpeed.

Примеры ноутбуков по техникам и фреймворкам

В следующей таблице организованы примеры ноутбуков в зависимости от используемой вами платформы или библиотеки и применяемой техники параллелизма. Несколько блокнотов могут отображаться в одной ячейке.

Платформа или библиотека Примеры DDP Примеры FSDP Примеры DeepSpeed
PyTorch (native) Простая нейронная сеть MLP
Обнаружение изображений RetinaNet
Преобразователь 10M параметров
Обнимать TRL Настройка Gpt OSS 20B Настройка Gpt OSS 120B Тонкая настройка Llama 3.2 1B
Unsloth Тонкая настройка Llama 3.2 3B
Axolotl Тонко настроить Olmo3 7B
Мозаика LLM Foundry Точно настроенная Лама 3.2 8B
Рэй Поезд ResNet18 в FashionMNIST (компьютерное зрение)
Настройка гиперпараметра XGBoost
Молния Система рекомендаций с двумя башнями

Начало работы

В следующей записной книжке приведен базовый пример использования безсерверного Python API для запуска нескольких GPU A10 для распределенного обучения.

Бессерверная API GPU: стартовый комплект A10

Получите ноутбук