Обслуживание моделей с помощью Azure Databricks

В этой статье описывается обслуживание моделей Azure Databricks, включая преимущества и ограничения.

Что такое обслуживание моделей?

Служба моделей Databricks предоставляет единый интерфейс для развертывания, управления и запроса моделей ИИ. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение.

Служба модели предоставляет высокодоступную и низкую задержку службы для развертывания моделей. Служба автоматически масштабируется до изменения спроса и экономии затрат на инфраструктуру при оптимизации производительности задержки. Эта функция использует бессерверные вычисления. Дополнительные сведения см. на странице цен на обслуживание моделей.

Обслуживание модели поддерживает обслуживание:

  • Настраиваемые модели. Это модели Python, упакованные в формате MLflow. Их можно зарегистрировать в каталоге Unity или в реестре моделей рабочей области. Примеры включают scikit-learn, XGBoost, PyTorch и модели преобразователя распознавания лиц.
  • Современные открытые модели, доступные API-интерфейсами модели Foundation. Эти модели являются курируемыми архитектурами базовых моделей, поддерживающими оптимизированное вывод. Базовые модели, такие как Llama-2-70B-chat, BGE-Large и Mistral-7B, доступны для немедленного использования с ценами на токен , а рабочие нагрузки, требующие гарантий производительности и точно настроенных вариантов модели, можно развернуть с подготовленной пропускной способностью.
  • Внешние модели. Это модели, размещенные за пределами Databricks. Конечные точки, обслуживающие внешние модели, могут централизованно управляться, и клиенты могут устанавливать ограничения скорости и управление доступом для них. К примерам относятся базовые модели, такие как, GPT-4 OpenAI, Anthropic в Клоде и другие.

Примечание.

Вы можете взаимодействовать с поддерживаемыми крупными языковыми моделями с помощью игровой площадки ИИ. Платформа искусственного интеллекта — это среда чата, в которой можно тестировать, запрашивать и сравнивать LLM. Эта функция доступна в рабочей области Azure Databricks.

Служба моделей предлагает унифицированный REST API и API развертывания MLflow для задач CRUD и запросов. Кроме того, он предоставляет единый пользовательский интерфейс для управления всеми моделями и соответствующими конечными точками обслуживания. Вы также можете получить доступ к моделям непосредственно из SQL с помощью функций искусственного интеллекта для простой интеграции с рабочими процессами аналитики.

Вводное руководство по использованию пользовательских моделей в Azure Databricks см . в руководстве по развертыванию и запросу пользовательской модели.

Руководство по началу работы с запросом базовой модели в Databricks см. в статье "Начало работы с запросами LLM на Databricks".

Зачем использовать обслуживание моделей?

  • Развертывание и запрос любых моделей. Служба моделей предоставляет единый интерфейс, который позволяет управлять всеми моделями в одном расположении и запрашивать их с помощью одного API независимо от того, размещаются ли они в Databricks или на внешних устройствах. Этот подход упрощает процесс экспериментирования с моделями, настройкой и развертыванием моделей в рабочей среде в различных облаках и поставщиках.

  • Безопасно настраивайте модели с частными данными: на основе платформы аналитики данных служба моделей упрощает интеграцию функций и внедрения в модели с помощью собственной интеграции с Хранилищем компонентов Databricks и векторным поиском Databricks. Для еще более улучшенной точности и контекстного понимания модели модели можно точно настраивать с помощью собственных данных и развертывать без усилий в службе моделей.

  • Управление моделями и мониторингом. Пользовательский интерфейс обслуживания позволяет централизованно управлять всеми конечными точками модели в одном месте, включая те, которые размещаются во внешнем расположении. Вы можете управлять разрешениями, отслеживать и задавать ограничения использования, а также отслеживать качество всех типов моделей. Это позволяет демократизировать доступ к SaaS и открывать LLM в организации, обеспечивая наличие соответствующих охранников.

  • Сокращение затрат с помощью оптимизированного вывода и быстрого масштабирования: Databricks реализовала ряд оптимизаций, чтобы обеспечить оптимальную пропускную способность и задержку для больших моделей. Конечные точки автоматически масштабируется вверх или вниз, чтобы удовлетворить изменения спроса, экономя затраты на инфраструктуру при оптимизации производительности задержки.

  • Обеспечение надежности и безопасности для службы моделей: служба моделей предназначена для обеспечения высокой доступности, использования рабочей среды с низкой задержкой и может поддерживать более 25 КБ запросов в секунду с задержкой накладных расходов менее 50 мс. Рабочие нагрузки обслуживания защищены несколькими уровнями безопасности, обеспечивая безопасную и надежную среду для даже самых конфиденциальных задач.

Требования

  • Зарегистрированная модель в каталоге Unity или реестре моделей рабочей области.
  • Разрешения для зарегистрированных моделей, как описано в списке ACL конечных точек обслуживания.
  • MLflow 1.29 или более поздней версии

Включение службы моделей для рабочей области

Дополнительные шаги не требуются для включения службы моделей в рабочей области.

Ограничения и доступность в регионах

Служба моделей Databricks накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. См . ограничения и регионы обслуживания моделей. Если у вас есть отзывы об этих ограничениях или конечной точке в неподдерживаемом регионе, обратитесь к группе учетной записи Databricks.

Защита данных в службе "Модель"

Databricks серьезно относится к безопасности данных. Databricks понимает важность данных, которые вы анализируете с помощью службы моделей Databricks, и реализует следующие элементы управления безопасностью для защиты данных.

  • Каждый запрос клиента к службе модели логически изолирован, прошел проверку подлинности и авторизован.
  • Служба моделей Databricks шифрует все неактивных данных (AES-256) и передает (TLS 1.2+).

Для всех платных учетных записей Служба моделей Databricks не использует входные данные пользователя, отправленные в службу или выходные данные службы для обучения любых моделей или улучшения любых служб Databricks.

Для API модели Databricks Foundation, в рамках предоставления службы Databricks может временно обрабатывать и хранить входные и выходные данные для предотвращения, обнаружения и устранения злоупотреблений или вредных использования. Входные данные и выходные данные изолированы от других клиентов, хранящихся в том же регионе, что и рабочая область в течение 30 дней, и доступна только для обнаружения и реагирования на проблемы безопасности или злоупотреблений.

Дополнительные ресурсы