Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это важно
Среда выполнения ИИ для задач с одним узлом находится в общедоступной предварительной версии. API распределенного обучения для рабочих нагрузок с несколькими GPU остаются в бета-версии.
Эта страница содержит сведения о миграции, ссылки на примеры записных книжек и сведения об устранении неполадок.
Перенос классических рабочих нагрузок GPU в бессерверные
Если вы перемещаете существующую рабочую нагрузку глубокого обучения из классического кластера Databricks (с машинным обучением среды выполнения Databricks) в бессерверный (с помощью среды выполнения ИИ), выполните следующие действия:
- Замените код, зависящий от кластера. Удалите все ссылки на распределенное обучение на основе Spark (например,
TorchDistributor) и замените их декоратором@distributedизserverless_gpu. - Обновите процесс загрузки данных. Замените прямые пути DBFS путями к томам каталога Unity (
/Volumes/...). Замените локальные операции Кадра данных Spark на Spark Connect. - Переустановите зависимости. Не полагаться на предварительно установленные библиотеки Databricks Runtime ML. Добавьте явные
%pip installкоманды для всех обязательных пакетов. - Обновите пути контрольных точек. Перемещение контрольных точек из DBFS или локального хранилища в тома каталога Unity (
/Volumes/<catalog>/<schema>/<volume>/...). - Обновление конфигурации MLflow. Убедитесь, что имена экспериментов используют абсолютные пути, а имена выполнения настраивайте для облегчения их перезапуска.
- Сначала протестируйте интерактивный тест. Проверьте задачу в интерактивной записной книжке перед постановкой её в качестве задания.
Отслеживание использования и затрат
Вы можете отслеживать расходы на GPU вычислительной среды ИИ, запрашивая системную таблицу расчетного использования (system.billing.usage). Следующий запрос возвращает суммарное использование GPU в функциях без сервера.
SELECT
SUM(usage_quantity)
FROM
system.billing.usage
WHERE
product_features.serverless_gpu IS NOT NULL
Для получения дополнительной информации о схеме таблицы учёта платного использования, см. справочник по системной таблице учёта платного использования.
AI-выполнение взимает плату за каждый час работы GPU по SKU обучения модели по следующим ценам:
- H100 по запросу: $7,00 за час работы GPU (Восток США)
- A10 по запросу: $4,90/GPU час (восточная часть США)
Примеры записных книжек
Чтобы приступить к работе, доступны следующие категории примеров записных книжек:
| Категория | Описание |
|---|---|
| Крупные языковые модели (LLM) | Тонкая настройка больших языковых моделей, включая методы оптимизации параметров (LoRA, QLoRA) |
| Компьютерное зрение | Обнаружение объектов, классификация изображений и другие задачи CV |
| Системы рекомендаций глубокого обучения | Создание систем рекомендаций с использованием современных подходов глубокого обучения, таких как модели с двумя башнями |
| Классическое машинное обучение | Традиционные задачи машинного обучения, включая обучение модели XGBoost и прогнозирование временных рядов |
| Распределенное обучение с несколькими GPU | Масштабирование обучения на нескольких GPU с помощью бессерверного GPU API |
Полный список см. в примерах записных книжек среды выполнения ИИ.
Troubleshooting
Код Genie может помочь диагностировать и предложить исправления ошибок установки библиотеки. См. раздел "Использование кода Genie" для отладки ошибок вычислительной среды.
ValueError: изменен размер numpy.dtype, может указывать на бинарную несовместимость. Ожидалось 96 в заголовке C, получено 88 из PyObject
Эта ошибка обычно возникает из-за несоответствия между версиями NumPy, которые используются во время компиляции зависимого пакета, и версией NumPy, установленной в runtime-среде. Эта несовместимость часто возникает из-за изменений в API C NumPy и особенно заметно от NumPy 1.x до 2.x. Эта ошибка означает, что пакет Python, установленный в записной книжке, может изменить версию NumPy.
Рекомендуемое решение:
Проверьте версию NumPy во время выполнения и убедитесь, что она совместима с пакетами. Сведения о предварительно установленных библиотеках Python можно найти в замечаниях о выпуске Serverless GPU Compute для среды 4 и среды 3. Если у вас есть зависимость от другой версии NumPy, добавьте эту зависимость в вычислительной среде.
PyTorch не может найти libcudnn при установке факела
При установке другой версии torchможет появиться ошибка: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory Это связано с тем, что torch ищет библиотеку cuDNN только в локальном пути.
Рекомендуемое решение:
Переустановите зависимости, добавив --force-reinstall при установке torch:
%pip install torch --force-reinstall