Распределенное обучение с несколькими GPU и несколькими узлами

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для многоузлового и распределенного обучения с несколькими GPU с использованием бессерверных вычислений GPU. В этих примерах показано, как масштабировать обучение на нескольких GPU и узлах для повышения производительности.

Выбор метода параллелизма

При масштабировании обучения модели на нескольких GPU выбор правильного метода параллелизма зависит от размера модели, доступной памяти GPU и требований к производительности.

Способ	Когда использовать
DDP (параллельная распределенная передача данных)	Полная модель соответствует одной памяти GPU; требуется масштабирование пропускной способности данных
FSDP (полностью шардированный параллельный доступ к данным)	Очень большие модели, которые не помещаются в память одного GPU
DeepSpeed ZeRO	Большие модели с расширенными потребностями оптимизации памяти

Подробные сведения о каждом методе см. в разделе DDP, FSDP и DeepSpeed.

Примеры ноутбуков по техникам и фреймворкам

В следующей таблице организованы примеры ноутбуков в зависимости от используемой вами платформы или библиотеки и применяемой техники параллелизма. Несколько блокнотов могут отображаться в одной ячейке.

Платформа или библиотека	Примеры DDP	Примеры FSDP	Примеры DeepSpeed
PyTorch (native)	Простая нейронная сеть MLP Обнаружение изображений RetinaNet	Преобразователь 10M параметров	—
Обнимать TRL	Настройка Gpt OSS 20B	Настройка Gpt OSS 120B	Тонкая настройка Llama 3.2 1B
Unsloth	Тонкая настройка Llama 3.2 3B	—	—
Axolotl	Тонко настроить Olmo3 7B	—	—
Мозаика LLM Foundry	Точно настроенная Лама 3.2 8B	—	—
Рэй Поезд	ResNet18 в FashionMNIST (компьютерное зрение) Настройка гиперпараметра XGBoost	—	—
Молния	Система рекомендаций с двумя башнями	—	—

Начало работы

В следующей записной книжке приведен базовый пример использования безсерверного Python API для запуска нескольких GPU A10 для распределенного обучения.

Бессерверная API GPU: стартовый комплект A10

Получите ноутбук

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-12-19