Поделиться через


Распределенное обучение с несколькими GPU

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

На этой странице приведены примеры записных книжек для распределенного обучения с несколькими GPU с помощью среды выполнения ИИ. В этих примерах показано, как масштабировать обучение на нескольких GPU и узлах для повышения производительности.

Замечание

Распределенное обучение с несколькими GPU поддерживается в GPU H100.

Выбор метода параллелизма

При масштабировании обучения модели на нескольких GPU выбор правильного метода параллелизма зависит от размера модели, доступной памяти GPU и требований к производительности.

Техника Когда использовать
DDP (параллельная распределенная передача данных) Полная модель соответствует одной памяти GPU; требуется масштабирование пропускной способности данных
FSDP (полностью шардированный параллельный доступ к данным) Очень большие модели, которые не помещаются в память одного GPU
DeepSpeed ZeRO Большие модели с расширенными потребностями оптимизации памяти

Подробные сведения о каждом методе см. в разделе DDP, FSDP и DeepSpeed.

Примеры ноутбуков по техникам и фреймворкам

В следующей таблице организованы примеры ноутбуков в зависимости от используемой вами платформы или библиотеки и применяемой техники параллелизма. Несколько блокнотов могут отображаться в одной ячейке.

Платформа или библиотека Примеры DDP Примеры FSDP Примеры DeepSpeed
PyTorch (native) Простая нейронная сеть MLP
Обнаружение изображений RetinaNet
Преобразователь 10M параметров
Обнимать TRL Настройка Gpt OSS 20B Настройка Gpt OSS 120B Тонкая настройка Llama 3.2 1B
Unsloth Тонкая настройка Llama 3.2 3B
Axolotl Тонко настроить Olmo3 7B
Мозаика LLM Foundry Точно настроенная Лама 3.2 8B
Молния Система рекомендаций с двумя башнями

Начало работы

Используйте следующие учебники, чтобы приступить к работе с бессерверной библиотекой GPU Python для распределенного обучения:

Руководство Описание
Среда выполнения ИИ с графическими процессорами H100 Узнайте, как использовать Databricks AI Runtime с акселераторами H100 для выполнения распределенных рабочих нагрузок GPU с помощью библиотеки Python serverless_gpu.