Развёртывание моделей с использованием Mosaic AI Model Serving

2025-06-02

В этой статье описывается Mosaic AI Model Serving — решение компании Databricks для развертывания моделей ИИ и машинного обучения с целью их обслуживания в режиме реального времени и проведения пакетного вычисления.

Что такое Mosaic AI Model Serving?

Платформа Mosaic AI Model Serving предоставляет единый интерфейс для развертывания, управления и запросов моделей ИИ для инференции в режиме реального времени и пакетной обработки. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение.

Сервис развертывания моделей предоставляет высокую доступность и низкое время отклика для развертывания моделей. Служба автоматически масштабируется в зависимости от изменений спроса, сокращая затраты на инфраструктуру и оптимизируя задержку. Эта функция использует бессерверные вычисления. Дополнительные сведения см. на странице цен на обслуживание моделей.

Model Serving предлагает единый REST API и API развертывания MLflow для выполнения операций CRUD и запросов. Кроме того, он предоставляет единый пользовательский интерфейс для управления всеми моделями и соответствующими конечными точками обслуживания. Вы также можете получить доступ к моделям непосредственно из SQL с помощью функций ИИ для простой интеграции с рабочими процессами аналитики.

Функции ИИ и сервинг моделей тесно интегрированы для сценариев пакетной инференции. Вы можете использовать специализированные для конкретных задач функции ИИ или ai-query в конвейерах пакетного вывода. Если вы решили использовать предварительно подготовленную модель, размещенную и управляемую Databricks, вам не нужно настраивать конечную точку обслуживания модели самостоятельно.

Ознакомьтесь со следующими руководствами по началу работы:

Сведения о выполнении пакетного вывода см. в разделе "Выполнение пакетного вывода LLM с помощью функций ИИ".
Вводное руководство по использованию пользовательских моделей в Azure Databricks для вывода в режиме реального времени см. в руководстве по развертыванию и запросу пользовательской модели.
Руководство по началу работы с запросом базовой модели в Databricks для вывода в режиме реального времени см. в статье "Начало запроса LLM в Databricks".

Модели, доступные для развертывания

Служба моделей поддерживает вывод в режиме реального времени и пакетной обработки для следующих типов моделей:

Настраиваемые модели. Это модели Python, упакованные в формате MLflow. Их можно зарегистрировать в каталоге Unity или в реестре моделей рабочей области. Примеры включают scikit-learn, XGBoost, PyTorch и модели трансформеров Hugging Face.
- Обслуживание агента поддерживается как пользовательская модель. См . раздел "Развертывание агента для создания приложений ИИ"
основные модели.
- базовые модели, размещенные на платформе Databricks, такие как Meta Llama. Эти модели доступны через API Foundation Model. Эти модели представляют собой отобранные архитектуры базовых моделей, поддерживающие оптимизированную инференцию. Базовые модели, такие как Meta-Llama-3.3-70B-Instruct, GTE-Large и Mistral-7B, доступны для немедленного использования с оплатой за токен, а рабочие нагрузки, требующие гарантий производительности и точно настроенных вариантов модели, можно развертывать с подготовленной пропускной способности.
- Основополагающие модели, размещенные за пределами Databricks, например GPT-4 из OpenAI. Эти модели доступны с помощью внешних моделей. Конечные точки, обслуживающие эти модели, можно централизованно управлять из Azure Databricks, чтобы упростить использование и управление различными поставщиками LLM, такими как OpenAI и Anthropic, в вашей организации.

Примечание.

Вы можете взаимодействовать с поддерживаемыми крупными языковыми моделями с помощью игровой площадки ИИ. Платформа искусственного интеллекта — это среда чата, в которой можно тестировать, запрашивать и сравнивать LLM. Эта функция доступна в рабочей области Azure Databricks.

Зачем использовать обслуживание моделей?

Развертывание и запрос любых моделей. Служба моделей предоставляет единый интерфейс, который позволяет управлять всеми моделями в одном расположении и запрашивать их с помощью одного API независимо от того, размещаются ли они в Databricks или на внешних устройствах. Этот подход упрощает процесс экспериментирования с моделями, настройкой и развертыванием моделей в рабочей среде в различных облаках и поставщиках.
Безопасная настройка моделей с помощью частных данных: Служба моделей на основе платформы Data Intelligence упрощает интеграцию функций и векторных представлений в модели через встроенную интеграцию с Databricks Feature Store и Mosaic AI Vector Search. Для еще более улучшенной точности и контекстного понимания модели модели можно точно настраивать с помощью собственных данных и развертывать без усилий в службе моделей.
Управление и мониторинг моделей. Пользовательский интерфейс обслуживания позволяет централизованно управлять всеми конечными точками модели из одного места, включая те, которые размещены на внешних хостингах. Вы можете управлять разрешениями, отслеживать и задавать ограничения использования и отслеживать качество всех типов моделей с помощью шлюза искусственного интеллекта. Это позволяет демократизировать доступ к SaaS и открытым LLM в рамках вашей организации, обеспечивая наличие соответствующих мер безопасности.
сократить затраты с помощью оптимизированного вывода и быстрого масштабирования: Databricks реализовала ряд оптимизаций, чтобы обеспечить оптимальную пропускную способность и задержку для больших моделей. Конечные точки автоматически масштабируются вверх или вниз, чтобы удовлетворить изменения спроса, снижая расходы на инфраструктуру при оптимизации производительности с низкой задержкой. Отслеживайте затраты на обслуживание модели.
- Для рабочих нагрузок, которые чувствительны к задержке или включают большое количество запросов в секунду, Databricks рекомендует использовать оптимизацию маршрутов для конечных точек обслуживания пользовательской модели. Обратитесь к команде аккаунт-менеджеров Databricks для обеспечения того, чтобы ваша рабочая область поддерживала высокую масштабируемость.

Обеспечение надежности и безопасности сервиса моделирования: сервис моделирования предназначен для обеспечения высокой доступности, низкой задержки в производственной среде и способен поддерживать более 25 000 запросов в секунду при накладной задержке менее 50 мс. Рабочие нагрузки обслуживания защищены несколькими уровнями безопасности, обеспечивая безопасную и надежную среду для даже самых конфиденциальных задач. Вы можете управлять сетевым доступом к конечным точкам обслуживания модели, настраивая политики сети. См. раздел "Управление политиками сети" для управления бессерверным исходящим трафиком.

Примечание.

Служба моделей не предоставляет исправления безопасности для существующих образов моделей из-за риска дестабилизации рабочих развертываний. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.

Требования

Зарегистрированная модель в каталоге Unity или в реестре моделей рабочей области .
Разрешения для зарегистрированных моделей, как описано в списке управления доступом (ACL) для конечных точек обслуживания.
- MLflow 1.29 или более поздней версии.
Если вы используете Приватный канал Azure для соблюдения правил входящего трафика, связанных с сетью, настроенных в рабочей области, Приватный канал Azure поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, которые служат пользовательским моделям. См . статью "Настройка частного подключения к ресурсам Azure".

Включить службу моделей для рабочей области

Дополнительные шаги не требуются для включения службы моделей в рабочей области.

Ограничения и доступность в регионах

Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. Смотрите ограничения и регионы обслуживания модели. Если у вас есть отзывы об этих ограничениях или конечной точке в неподдерживаемом регионе, обратитесь к группе учетной записи Databricks.

Защита данных в службе "Модель"

Databricks серьезно относится к безопасности данных. Databricks понимает важность данных, которые вы анализируете с помощью службы модели ИИ Мозаики, и реализует следующие элементы управления безопасностью для защиты данных.

Каждый запрос клиента к службе модели логически изолирован, прошел проверку подлинности и авторизован.
Обслуживание модели Mosaic AI шифрует все данные на месте (AES-256) и в пути (TLS 1.2+).

Для всех платных учетных записей служба модели ИИ Мозаики не использует входные данные пользователя, отправленные в службу, или выходные данные из службы для обучения любых моделей или улучшения любых служб Databricks.

Для API модели Databricks Foundation, в рамках предоставления службы Databricks может временно обрабатывать и хранить входные и выходные данные для предотвращения, обнаружения и устранения злоупотреблений или вредных использования. Ваши данные изолированы от данных других клиентов и хранятся в том же регионе, что и ваша рабочая область, в течение 30 дней. Они доступны только для обнаружения и реагирования на проблемы безопасности или злоупотреблений. Интерфейсы API модели Foundation — это служба Databricks, то есть она соответствует границам резидентности данных, реализованным Databricks Geos.