Поделиться через


Пользовательские руководства для среды выполнения ИИ

Это важно

Среда выполнения ИИ для задач с одним узлом находится в общедоступной предварительной версии. API распределенного обучения для рабочих нагрузок с несколькими GPU остаются в бета-версии.

Эта страница содержит сведения о миграции, ссылки на примеры записных книжек и сведения об устранении неполадок.

Перенос классических рабочих нагрузок GPU в бессерверные

Если вы перемещаете существующую рабочую нагрузку глубокого обучения из классического кластера Databricks (с машинным обучением среды выполнения Databricks) в бессерверный (с помощью среды выполнения ИИ), выполните следующие действия:

  1. Замените код, зависящий от кластера. Удалите все ссылки на распределенное обучение на основе Spark (например, TorchDistributor) и замените их декоратором @distributed из serverless_gpu.
  2. Обновите процесс загрузки данных. Замените прямые пути DBFS путями к томам каталога Unity (/Volumes/...). Замените локальные операции Кадра данных Spark на Spark Connect.
  3. Переустановите зависимости. Не полагаться на предварительно установленные библиотеки Databricks Runtime ML. Добавьте явные %pip install команды для всех обязательных пакетов.
  4. Обновите пути контрольных точек. Перемещение контрольных точек из DBFS или локального хранилища в тома каталога Unity (/Volumes/<catalog>/<schema>/<volume>/...).
  5. Обновление конфигурации MLflow. Убедитесь, что имена экспериментов используют абсолютные пути, а имена выполнения настраивайте для облегчения их перезапуска.
  6. Сначала протестируйте интерактивный тест. Проверьте задачу в интерактивной записной книжке перед постановкой её в качестве задания.

Отслеживание использования и затрат

Вы можете отслеживать расходы на GPU вычислительной среды ИИ, запрашивая системную таблицу расчетного использования (system.billing.usage). Следующий запрос возвращает суммарное использование GPU в функциях без сервера.

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Для получения дополнительной информации о схеме таблицы учёта платного использования, см. справочник по системной таблице учёта платного использования.

AI-выполнение взимает плату за каждый час работы GPU по SKU обучения модели по следующим ценам:

  • H100 по запросу: $7,00 за час работы GPU (Восток США)
  • A10 по запросу: $4,90/GPU час (восточная часть США)

Примеры записных книжек

Чтобы приступить к работе, доступны следующие категории примеров записных книжек:

Категория Описание
Крупные языковые модели (LLM) Тонкая настройка больших языковых моделей, включая методы оптимизации параметров (LoRA, QLoRA)
Компьютерное зрение Обнаружение объектов, классификация изображений и другие задачи CV
Системы рекомендаций глубокого обучения Создание систем рекомендаций с использованием современных подходов глубокого обучения, таких как модели с двумя башнями
Классическое машинное обучение Традиционные задачи машинного обучения, включая обучение модели XGBoost и прогнозирование временных рядов
Распределенное обучение с несколькими GPU Масштабирование обучения на нескольких GPU с помощью бессерверного GPU API

Полный список см. в примерах записных книжек среды выполнения ИИ.

Troubleshooting

Код Genie может помочь диагностировать и предложить исправления ошибок установки библиотеки. См. раздел "Использование кода Genie" для отладки ошибок вычислительной среды.

ValueError: изменен размер numpy.dtype, может указывать на бинарную несовместимость. Ожидалось 96 в заголовке C, получено 88 из PyObject

Эта ошибка обычно возникает из-за несоответствия между версиями NumPy, которые используются во время компиляции зависимого пакета, и версией NumPy, установленной в runtime-среде. Эта несовместимость часто возникает из-за изменений в API C NumPy и особенно заметно от NumPy 1.x до 2.x. Эта ошибка означает, что пакет Python, установленный в записной книжке, может изменить версию NumPy.

Рекомендуемое решение:

Проверьте версию NumPy во время выполнения и убедитесь, что она совместима с пакетами. Сведения о предварительно установленных библиотеках Python можно найти в замечаниях о выпуске Serverless GPU Compute для среды 4 и среды 3. Если у вас есть зависимость от другой версии NumPy, добавьте эту зависимость в вычислительной среде.

PyTorch не может найти libcudnn при установке факела

При установке другой версии torchможет появиться ошибка: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory Это связано с тем, что torch ищет библиотеку cuDNN только в локальном пути.

Рекомендуемое решение:

Переустановите зависимости, добавив --force-reinstall при установке torch:

%pip install torch --force-reinstall