Среда выполнения ИИ

Это важно

Среда выполнения ИИ для задач с одним узлом находится в общедоступной предварительной версии. API распределенного обучения для рабочих нагрузок с несколькими GPU остаются в бета-версии.

Обзор среды выполнения ИИ

Среда выполнения ИИ — это предложение вычислений в Databricks, предназначенное для рабочих нагрузок глубокого обучения , и обеспечивает поддержку GPU для Databricks Serverless. Среду выполнения ИИ можно использовать для обучения и точной настройки пользовательских моделей с помощью любимых платформ и получения эффективной эффективности, производительности и качества. Общие сведения о том, как бессерверные вычисления соответствуют архитектуре Databricks, см. в разделе "Бессерверная архитектура рабочей области".

Ключевые особенности

  • Полностью управляемая инфраструктура GPU — бессерверный, гибкий доступ к gpu и без конфигурации кластера, выбора драйверов или политик автомасштабирования для управления.
  • Среда выполнения, выделенная для глубокого обучения , — выберите минимальную базовую среду по умолчанию для максимальной гибкости по сравнению с зависимостями или полнофункциональной средой ИИ, предварительно загруженной с помощью популярных платформ машинного обучения.
  • Встроенная интеграция между записными книжками, заданиями, каталогом Unity и MLflow для простой разработки, доступа к данным и отслеживания экспериментов.

Параметры оборудования

Все акселераторы среды выполнения ИИ подготавливают один узел. Количество gpu на этом узле зависит от типа акселератора:

Ускоритель Графические процессоры на узел Память GPU лучше всего подходит для Распределенное обучение
1xA10 1 24 ГБ Небольшие и средние задачи машинного обучения и глубокого обучения, такие как классические модели машинного обучения или более мелкие языковые модели Не поддерживается (один GPU)
8xH100 8 80 ГБ на GPU Крупномасштабные рабочие нагрузки искусственного интеллекта, включая обучение или уточнение массовых моделей или выполнение сложных задач глубокого обучения Поддерживается — используйте @distributed декоратор с gpus=8

Databricks рекомендует среду выполнения ИИ для любых вариантов использования пользовательской модели, включающих глубокое обучение, крупномасштабные классические рабочие нагрузки или графические процессоры.

Рассмотрим пример.

  • Точная настройка LLM (LoRA, QLoRA, полная настройка)
  • Компьютерное зрение (обнаружение объектов, классификация изображений)
  • Системы рекомендаций на основе глубокого обучения
  • Обучение с подкреплением
  • Прогнозирование временных рядов на основе глубокого обучения

Требования

  • Рабочая область в одном из следующих регионов, поддерживаемых Azure:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Ограничения

  • Среда выполнения ИИ поддерживает только акселераторы A10 и H100.
  • Среда выполнения ИИ не поддерживается в рабочих областях с профилем безопасности для соблюдения требований (например, HIPAA или PCI). Обработка регулируемых данных не поддерживается.
  • Добавление зависимостей с помощью панели "Среды " не поддерживается для запланированных заданий среды выполнения ИИ. Установите зависимости программным способом с помощью %pip install в вашем ноутбуке вместо этого.
  • Для запланированных заданий в среде выполнения ИИ автоматическое восстановление несовместимых версий пакетов, связанных с записной книжкой, не поддерживается.
  • Максимальное время выполнения рабочей нагрузки составляет семь дней. Для заданий обучения модели, превышающих это ограничение, создайте контрольные точки и перезапустите задание после достижения максимальной продолжительности выполнения.
  • Среда выполнения ИИ предоставляет доступ по запросу к ресурсам GPU. Хотя это приводит к простому гибкому доступу к графическим процессорам, могут возникнуть периоды, когда емкость ограничена или недоступна в вашем регионе.
  • Среда выполнения ИИ использует межрегиональные графические процессоры в некоторых случаях в периоды высокого спроса. Возможны затраты на исходящий трафик, связанные с таким использованием.

Подключение к среде выполнения ИИ

Вы можете подключаться к среде выполнения ИИ в интерактивном режиме из записных книжек, запланировать записные книжки в качестве повторяющихся заданий или программно создавать задания с помощью API заданий и пакетов ресурсов Databricks. Пошаговые инструкции см. в разделе "Подключение к среде выполнения ИИ".

Настройка среды

Среда выполнения ИИ предлагает две управляемые Python среды: минимальную базовую среду по умолчанию и полнофункциональный интерфейс ИИ Databricks, предварительно загруженную с помощью популярных платформ машинного обучения, таких как PyTorch и Преобразователи. Дополнительные сведения о выборе среды, кэшировании, импорте пользовательских модулей и известных ограничениях см. в статье "Настройка среды".

Чтение данных

Понимание того, как доступ к данным работает в среде выполнения ИИ, является важным для плавного взаимодействия. Дополнительные сведения см. в разделе "Загрузка данных в среде выполнения ИИ".

Распределенное обучение

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. Управление предварительными версиями Azure Databricks.

Среда выполнения ИИ поддерживает распределенное обучение по нескольким GPU на одном узле, к которому подключена записная книжка. Используя декоратор @distributed из API serverless_gpu Python (бета-версия), можно запускать рабочие нагрузки с несколькими GPU с помощью DDP PyTorch, FSDP или DeepSpeed с минимальной конфигурацией. Дополнительные сведения см. в разделе "Рабочая нагрузка с несколькими GPU".

Отслеживание экспериментов и наблюдаемость

Сведения об интеграции MLflow, просмотре журналов и управлении контрольными точками модели см. в разделе "Отслеживание экспериментов" и "Наблюдаемость".

Код Genie для глубокого обучения

Genie Code поддерживает рабочие нагрузки глубокого обучения в среде выполнения ИИ. Он может помочь в создании кода обучения, устранении ошибок установки библиотеки, предложениях оптимизации и отладке распространенных проблем. См. раздел "Использование кода Genie для обработки и анализа данных".

Guides

Для информации о миграции классических рабочих нагрузок, примерах записных книжек и устранении неполадок см. руководства пользователей для среды выполнения ИИ.