Распределенное обучение с несколькими GPU

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для распределенного обучения с несколькими GPU с помощью среды выполнения ИИ. В этих примерах показано, как масштабировать обучение на нескольких GPU и узлах для повышения производительности.

Замечание

Распределенное обучение с несколькими GPU поддерживается в GPU H100.

Выбор метода параллелизма

При масштабировании обучения модели на нескольких GPU выбор правильного метода параллелизма зависит от размера модели, доступной памяти GPU и требований к производительности.

Техника	Когда использовать
DDP (параллельная распределенная передача данных)	Полная модель соответствует одной памяти GPU; требуется масштабирование пропускной способности данных
FSDP (полностью шардированный параллельный доступ к данным)	Очень большие модели, которые не помещаются в память одного GPU
DeepSpeed ZeRO	Большие модели с расширенными потребностями оптимизации памяти

Подробные сведения о каждом методе см. в разделе DDP, FSDP и DeepSpeed.

Примеры ноутбуков по техникам и фреймворкам

В следующей таблице организованы примеры ноутбуков в зависимости от используемой вами платформы или библиотеки и применяемой техники параллелизма. Несколько блокнотов могут отображаться в одной ячейке.

Платформа или библиотека	Примеры DDP	Примеры FSDP	Примеры DeepSpeed
PyTorch (native)	Простая нейронная сеть MLP Обнаружение изображений RetinaNet	Преобразователь 10M параметров	—
Обнимать TRL	Настройка Gpt OSS 20B	Настройка Gpt OSS 120B	Тонкая настройка Llama 3.2 1B
Unsloth	Тонкая настройка Llama 3.2 3B	—	—
Axolotl	Тонко настроить Olmo3 7B	—	—
Мозаика LLM Foundry	Точно настроенная Лама 3.2 8B	—	—
Молния	Система рекомендаций с двумя башнями	—	—

Начало работы

Используйте следующие учебники, чтобы приступить к работе с бессерверной библиотекой GPU Python для распределенного обучения:

Руководство	Описание
Среда выполнения ИИ с графическими процессорами H100	Узнайте, как использовать Databricks AI Runtime с акселераторами H100 для выполнения распределенных рабочих нагрузок GPU с помощью библиотеки Python serverless_gpu.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-03-21