Поделиться через


Среда выполнения ИИ

Это важно

Среда выполнения ИИ для задач с одним узлом находится в общедоступной предварительной версии. API распределенного обучения для рабочих нагрузок с несколькими GPU остаются в бета-версии.

Обзор среды выполнения ИИ

Среда выполнения ИИ — это предложение вычислений в Databricks, предназначенное для рабочих нагрузок глубокого обучения , и обеспечивает поддержку GPU для Databricks Serverless. Среду выполнения ИИ можно использовать для обучения и точной настройки пользовательских моделей с помощью любимых платформ и получения эффективной эффективности, производительности и качества. Общие сведения о том, как бессерверные вычисления соответствуют архитектуре Databricks, см. в разделе "Бессерверная архитектура рабочей области".

Ключевые особенности

  • Полностью управляемая инфраструктура GPU — бессерверный, гибкий доступ к gpu и без конфигурации кластера, выбора драйверов или политик автомасштабирования для управления.
  • Среда выполнения, выделенная для глубокого обучения , — выберите минимальную базовую среду по умолчанию для максимальной гибкости по сравнению с зависимостями или полнофункциональной средой ИИ, предварительно загруженной с помощью популярных платформ машинного обучения.
  • Встроенная интеграция между записными книжками, заданиями, каталогом Unity и MLflow для простой разработки, доступа к данным и отслеживания экспериментов.

Параметры оборудования

Ускоритель Лучше всего для Multi-GPU
A10 Небольшие и средние задачи машинного обучения и глубокого обучения, такие как классические модели машинного обучения или более мелкие языковые модели Нет
H100 Крупномасштабные рабочие нагрузки искусственного интеллекта, включая обучение или уточнение массовых моделей или выполнение сложных задач глубокого обучения Да (8 GPU)

Databricks рекомендует среду выполнения ИИ для любых вариантов использования пользовательской модели, включающих глубокое обучение, крупномасштабные классические рабочие нагрузки или графические процессоры.

Рассмотрим пример.

  • Точная настройка LLM (LoRA, QLoRA, полная настройка)
  • Компьютерное зрение (обнаружение объектов, классификация изображений)
  • Системы рекомендаций на основе глубокого обучения
  • Обучение с подкреплением
  • Прогнозирование временных рядов на основе глубокого обучения

Требования

  • Рабочая область в одном из следующих регионов, поддерживаемых Azure:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Ограничения

  • Среда выполнения ИИ поддерживает только акселераторы A10 и H100.
  • Среда выполнения ИИ не поддерживается в рабочих областях с профилем безопасности для соблюдения требований (например, HIPAA или PCI). Обработка регулируемых данных не поддерживается.
  • Добавление зависимостей с помощью панели "Среды " не поддерживается для запланированных заданий среды выполнения ИИ. Установите зависимости программным способом с помощью %pip install в вашем ноутбуке вместо этого.
  • Для запланированных заданий в среде выполнения ИИ автоматическое восстановление несовместимых версий пакетов, связанных с записной книжкой, не поддерживается.
  • Максимальное время выполнения рабочей нагрузки составляет семь дней. Для заданий обучения модели, превышающих это ограничение, создайте контрольные точки и перезапустите задание после достижения максимальной продолжительности выполнения.
  • Среда выполнения ИИ предоставляет доступ по запросу к ресурсам GPU. Хотя это приводит к простому гибкому доступу к графическим процессорам, могут возникнуть периоды, когда емкость ограничена или недоступна в вашем регионе.
  • Среда выполнения ИИ использует межрегиональные графические процессоры в некоторых случаях в периоды высокого спроса. Возможны затраты на исходящий трафик, связанные с таким использованием.

Подключение к среде выполнения ИИ

Вы можете подключаться к среде выполнения ИИ в интерактивном режиме из записных книжек, запланировать записные книжки в качестве повторяющихся заданий или программно создавать задания с помощью API заданий и пакетов ресурсов Databricks. Пошаговые инструкции см. в разделе "Подключение к среде выполнения ИИ".

Настройка среды

Среда выполнения ИИ предлагает две управляемые среды Python: минимальную базовую среду по умолчанию и полнофункциональный интерфейс ИИ Databricks, предварительно загруженную с помощью популярных платформ машинного обучения, таких как PyTorch и Преобразователи. Дополнительные сведения о выборе среды, кэшировании, импорте пользовательских модулей и известных ограничениях см. в статье "Настройка среды".

Чтение данных

Понимание того, как доступ к данным работает в среде выполнения ИИ, является важным для плавного взаимодействия. Дополнительные сведения см. в разделе "Загрузка данных в среде выполнения ИИ".

Распределенное обучение

Это важно

Эта функция доступна в бета-версии. Администраторы рабочей области могут управлять доступом к этой функции на странице "Предварительные версии ". См. статью "Управление предварительными версиями Azure Databricks".

Среда выполнения ИИ поддерживает распределенное обучение по нескольким GPU на одном узле, к которому подключена записная книжка. @distributed Используя декоратор из serverless_gpu API Python (бета-версия), вы можете запускать задачи для нескольких графических процессоров с помощью PyTorch DDP, FSDP или DeepSpeed с минимальной конфигурацией. Дополнительные сведения см. в разделе "Рабочая нагрузка с несколькими GPU".

Отслеживание экспериментов и наблюдаемость

Сведения об интеграции MLflow, просмотре журналов и управлении контрольными точками модели см. в разделе "Отслеживание экспериментов" и "Наблюдаемость".

Код Genie для глубокого обучения

Genie Code поддерживает рабочие нагрузки глубокого обучения в среде выполнения ИИ. Он может помочь в создании кода обучения, устранении ошибок установки библиотеки, предложениях оптимизации и отладке распространенных проблем. См. раздел "Использование кода Genie для обработки и анализа данных".

Guides

Для информации о миграции классических рабочих нагрузок, примерах записных книжек и устранении неполадок см. руководства пользователей для среды выполнения ИИ.