Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".
На этой странице приведены примеры записных книжек для многоузлового и распределенного обучения с несколькими GPU с использованием бессерверных вычислений GPU. В этих примерах показано, как масштабировать обучение на нескольких GPU и узлах для повышения производительности.
Выбор метода параллелизма
При масштабировании обучения модели на нескольких GPU выбор правильного метода параллелизма зависит от размера модели, доступной памяти GPU и требований к производительности.
| Способ | Когда использовать |
|---|---|
| DDP (параллельная распределенная передача данных) | Полная модель соответствует одной памяти GPU; требуется масштабирование пропускной способности данных |
| FSDP (полностью шардированный параллельный доступ к данным) | Очень большие модели, которые не помещаются в память одного GPU |
| DeepSpeed ZeRO | Большие модели с расширенными потребностями оптимизации памяти |
Подробные сведения о каждом методе см. в разделе DDP, FSDP и DeepSpeed.
Примеры ноутбуков по техникам и фреймворкам
В следующей таблице организованы примеры ноутбуков в зависимости от используемой вами платформы или библиотеки и применяемой техники параллелизма. Несколько блокнотов могут отображаться в одной ячейке.
| Платформа или библиотека | Примеры DDP | Примеры FSDP | Примеры DeepSpeed |
|---|---|---|---|
| PyTorch (native) |
Простая нейронная сеть MLP Обнаружение изображений RetinaNet |
Преобразователь 10M параметров | — |
| Обнимать TRL | Настройка Gpt OSS 20B | Настройка Gpt OSS 120B | Тонкая настройка Llama 3.2 1B |
| Unsloth | Тонкая настройка Llama 3.2 3B | — | — |
| Axolotl | Тонко настроить Olmo3 7B | — | — |
| Мозаика LLM Foundry | Точно настроенная Лама 3.2 8B | — | — |
| Рэй Поезд |
ResNet18 в FashionMNIST (компьютерное зрение) Настройка гиперпараметра XGBoost |
— | — |
| Молния | Система рекомендаций с двумя башнями | — | — |
Начало работы
В следующей записной книжке приведен базовый пример использования безсерверного Python API для запуска нескольких GPU A10 для распределенного обучения.