Поделиться через


Настройка среды

Это важно

Среда выполнения ИИ для задач с одним узлом находится в общедоступной предварительной версии. API распределенного обучения для рабочих нагрузок с несколькими GPU остаются в бета-версии.

На этой странице описывается выбор и настройка среды Python для среды выполнения ИИ, включая поведение кэширования среды, импорт пользовательских модулей и известные ограничения.

Какая среда используется

Среда выполнения ИИ предлагает две управляемые среды Python, базовую среду по умолчанию и среду ИИ Databricks.

Окружающая среда Основные характеристики Когда использовать
Базовая среда по умолчанию Минимальный, включает только torch, cudaи torchvision Вы хотите полный контроль над стеком зависимостей и предпочитаете устанавливать только то, что вам нужно.
Среда искусственного интеллекта Databricks Предварительно установлены популярные платформы машинного обучения (PyTorch, Transformers и многое другое) Требуется полная среда для обучения, тонкой настройки и экспериментирования без ручного управления зависимостями

Замечание

Базовые среды рабочей области не поддерживаются для среды выполнения ИИ. Вместо этого используйте среду по умолчанию или ИИ и укажите дополнительные зависимости непосредственно на боковой панели сред или pip install в них.

Базовая среда по умолчанию (минимальная среда)

Минимальная стабильная среда, содержащая только необходимые пакеты для операции среды выполнения ИИ. Среда включает в себя torch, cuda и torchvision, которые оптимизированы для совместимости. Для определенных версий пакетов используйте pip install или закрепите необходимые версии.

Лучше всего: пользователи, которые хотят полного контроля над стеком зависимостей и предпочитают устанавливать только то, что им нужно.

Это среда по умолчанию при подключении к бессерверному GPU через среду выполнения ИИ.

Дополнительные сведения о версиях пакетов, установленных в различных версиях ПО, см. в примечаниях к выпуску.

Среда Databricks AI

Доступно в среде 4 и более поздних версий. Среда ИИ основана на базовой среде по умолчанию с общими пакетами среды выполнения и пакетами, характерными для машинного обучения на GPU. К предварительно установленным пакетам относятся:

  • PyTorch (с поддержкой CUDA)
  • Transformers (Hugging Face)
  • И дополнительные зависимости ML/DL

Оптимально для специалистов по машинному обучению, которые хотят полной среды для обучения модели, доводки и экспериментирования без ручного управления зависимостями.

Для выбора: на боковой панели среды выберите AI v4 в качестве вашей базовой среды.

Дополнительные сведения о версиях пакетов, установленных в различных версиях ПО, см. в примечаниях к выпуску.

Базовые среды рабочего пространства

Базовые среды рабочей области не поддерживаются для среды выполнения ИИ. Нельзя использовать пользовательские конфигурации среды на уровне рабочей области.

Чтобы настроить среду глубокого обучения для проекта, используйте одну из двух предоставленных базовых сред (по умолчанию или Databricks AI) и установите дополнительные пакеты программным способом с помощью %pip install записной книжки или в верхней части скрипта обучения:

%pip install datasets accelerate peft bitsandbytes

Дополнительные библиотеки можно установить в среду выполнения ИИ. См. статью "Добавление зависимостей в записную книжку".

Поведение

Когда кэшируются среды?

Среды кэшируются на протяжении нескольких сеансов для ускорения времени запуска. При повторном подключении к среде выполнения ИИ с той же конфигурацией среды ранее установленные пакеты могут быть доступны из кэша, уменьшая время установки.

Однако поведение кэша не гарантируется— всегда убедитесь, что записная книжка включает необходимые %pip install команды для воспроизводимости.

Как импортировать пользовательские модули?

Пользовательские модули можно импортировать, разместив их /Workspace/Shared и добавив путь к sys.path:

import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function

Вы также можете отправлять файлы модулей в виде файлов рабочей области и импортировать их напрямую. Для совместной работы с несколькими пользователями храните общий код /Workspace/Shared вместо папок, относящихся к пользователю. Для активной разработки используйте папки для конкретного пользователя и отправьте их в удаленный репозиторий Git для управления версиями.

Ограничения

Следующие возможности недоступны в среде выполнения ИИ:

  • Функции Spark — нельзя импортировать или использовать функции PySpark напрямую. Среда выполнения ИИ — это среда, доступная только для Python; Spark недоступна в качестве локальной среды выполнения. Однако Spark Connect доступен для загрузки данных. См. Загрузка данных в среде выполнения ИИ.
  • Библиотеки машинного обучения среды выполнения Databricks Runtime — предустановленные пакеты не заменяют среду выполнения Databricks Runtime ML. Некоторые библиотеки машинного обучения, доступные в Databricks Runtime ML, могут не быть предварительно установлены в среде выполнения ИИ.
  • Базовые среды рабочей области— конфигурации настраиваемой среды на уровне рабочей области не поддерживаются.
  • Частные артефакты — среда выполнения ИИ поддерживает частные артефакты в определенных случаях. Для получения дополнительных сведений свяжитесь с вашей командой по работе с клиентами.