Обслуживание моделей с помощью Azure Databricks
В этой статье описывается служба модели ИИ Мозаики, в том числе ее преимущества и ограничения.
Что такое мозаичная модель ИИ, обслуживающая?
Служба модели ИИ Мозаики предоставляет единый интерфейс для развертывания, управления и запроса моделей ИИ для вывода в режиме реального времени и пакетной обработки. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение.
Служба модели предоставляет высокодоступную и низкую задержку службы для развертывания моделей. Служба автоматически масштабируется до изменения спроса и экономии затрат на инфраструктуру при оптимизации производительности задержки. Эта функция использует бессерверные вычисления. Дополнительные сведения см. на странице цен на обслуживание моделей.
Обслуживание модели поддерживает обслуживание:
- Настраиваемые модели. Это модели Python, упакованные в формате MLflow. Их можно зарегистрировать в каталоге Unity или в реестре моделей рабочей области. Примеры включают scikit-learn, XGBoost, PyTorch и модели преобразователя распознавания лиц.
- Обслуживание агента поддерживается как пользовательская модель. См. статью "Развертывание агента для создания приложения искусственного интеллекта"
- Современные открытые модели, доступные API-интерфейсами модели Foundation. Эти модели являются курируемыми архитектурами базовых моделей, поддерживающими оптимизированное вывод. Базовые модели, такие как Meta-Llama-3.1-70B-Instruct, GTE-Large и Mistral-7B, доступны для немедленного использования с ценами на токен , а рабочие нагрузки, требующие гарантий производительности и точно настроенных вариантов модели, могут быть развернуты с подготовленной пропускной способностью.
- Databricks рекомендует использовать
ai_query
с моделью обслуживания для пакетного вывода. Для быстрого экспериментированияai_query
можно использовать с конечными точками токенов с оплатой за токен. Когда вы готовы выполнить пакетное вывод с большими или производственными данными, Databricks рекомендует использовать подготовленные конечные точки пропускной способности для повышения производительности. Сведения о создании подготовленной конечной точки пропускной способности см . в API-интерфейсах модели модели подготовки пропускной способности.- См. раздел "Выполнение пакетного вывода с помощью ai_query".
- Чтобы приступить к работе с пакетным выводом с помощью LLM в таблицах каталога> Unity, ознакомьтесь с примерами записных книжек в пакетном выводе с помощью API-интерфейсов модели Foundation, подготовленных пропускной способностью.
- Databricks рекомендует использовать
- Внешние модели. Это генеривные модели ИИ, размещенные за пределами Databricks. Примеры включают такие модели, как GPT-4 OpenAI, Anthropic в Клоде и другие. Конечные точки, обслуживающие внешние модели, могут централизованно управляться, и клиенты могут устанавливать ограничения скорости и управление доступом для них.
Примечание.
Вы можете взаимодействовать с поддерживаемыми крупными языковыми моделями с помощью игровой площадки ИИ. Платформа искусственного интеллекта — это среда чата, в которой можно тестировать, запрашивать и сравнивать LLM. Эта функция доступна в рабочей области Azure Databricks.
Служба моделей предлагает унифицированный REST API и API развертывания MLflow для задач CRUD и запросов. Кроме того, он предоставляет единый пользовательский интерфейс для управления всеми моделями и соответствующими конечными точками обслуживания. Вы также можете получить доступ к моделям непосредственно из SQL с помощью функций искусственного интеллекта для простой интеграции с рабочими процессами аналитики.
Вводное руководство по использованию пользовательских моделей в Azure Databricks см . в руководстве по развертыванию и запросу пользовательской модели.
Руководство по началу работы с запросом базовой модели в Databricks см. в статье "Начало работы с запросами LLM на Databricks".
Зачем использовать обслуживание моделей?
- Развертывание и запрос любых моделей. Служба моделей предоставляет единый интерфейс, который позволяет управлять всеми моделями в одном расположении и запрашивать их с помощью одного API независимо от того, размещаются ли они в Databricks или на внешних устройствах. Этот подход упрощает процесс экспериментирования с моделями, настройкой и развертыванием моделей в рабочей среде в различных облаках и поставщиках.
- Безопасная настройка моделей с помощью частных данных: на основе платформы аналитики данных, служба моделей упрощает интеграцию функций и внедрения в модели с помощью встроенной интеграции с Хранилищем компонентов Databricks и векторным поиском векторов мозаики. Для еще более улучшенной точности и контекстного понимания модели модели можно точно настраивать с помощью собственных данных и развертывать без усилий в службе моделей.
- Управление моделями и мониторингом. Пользовательский интерфейс обслуживания позволяет централизованно управлять всеми конечными точками модели в одном месте, включая те, которые размещаются во внешнем расположении. Вы можете управлять разрешениями, отслеживать и задавать ограничения использования, а также отслеживать качество всех типов моделей. Это позволяет демократизировать доступ к SaaS и открывать LLM в организации, обеспечивая наличие соответствующих охранников.
- Сокращение затрат с помощью оптимизированного вывода и быстрого масштабирования: Databricks реализовала ряд оптимизаций, чтобы обеспечить оптимальную пропускную способность и задержку для больших моделей. Конечные точки автоматически масштабируется вверх или вниз, чтобы удовлетворить изменения спроса, экономя затраты на инфраструктуру при оптимизации производительности задержки. Отслеживайте затраты на обслуживание модели.
Примечание.
Для рабочих нагрузок, которые чувствительны к задержке или включают большое количество запросов в секунду, Databricks рекомендует использовать оптимизацию маршрутов для конечных точек обслуживания пользовательской модели. Обратитесь к группе учетных записей Databricks, чтобы обеспечить высокую масштабируемость рабочей области.
- Обеспечение надежности и безопасности для службы моделей: служба моделей предназначена для обеспечения высокой доступности, использования рабочей среды с низкой задержкой и может поддерживать более 25 КБ запросов в секунду с задержкой накладных расходов менее 50 мс. Рабочие нагрузки обслуживания защищены несколькими уровнями безопасности, обеспечивая безопасную и надежную среду для даже самых конфиденциальных задач.
Примечание.
Служба моделей не предоставляет исправления безопасности для существующих образов моделей из-за риска дестабилизации рабочих развертываний. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.
Требования
- Зарегистрированная модель в каталоге Unity или реестре моделей рабочей области.
- Разрешения для зарегистрированных моделей, как описано в списке ACL конечных точек обслуживания.
- MLflow 1.29 или более поздней версии.
- Если вы используете Приватный канал Azure для соблюдения правил входящего трафика, связанных с сетью, настроенных в рабочей области, Приватный канал Azure поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, которые служат пользовательским моделям. См. раздел "Настройка частного подключения из бессерверных вычислений".
Включение службы моделей для рабочей области
Дополнительные шаги не требуются для включения службы моделей в рабочей области.
Ограничения и доступность в регионах
Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. См . ограничения и регионы обслуживания моделей. Если у вас есть отзывы об этих ограничениях или конечной точке в неподдерживаемом регионе, обратитесь к группе учетной записи Databricks.
Защита данных в службе "Модель"
Databricks серьезно относится к безопасности данных. Databricks понимает важность данных, которые вы анализируете с помощью службы модели ИИ Мозаики, и реализует следующие элементы управления безопасностью для защиты данных.
- Каждый запрос клиента к службе модели логически изолирован, прошел проверку подлинности и авторизован.
- Мозаичная модель ИИ, обслуживающая, шифрует все неактивных данных (AES-256) и передает (TLS 1.2+).
Для всех платных учетных записей служба модели ИИ Мозаики не использует входные данные пользователя, отправленные в службу, или выходные данные из службы для обучения любых моделей или улучшения любых служб Databricks.
Для API модели Databricks Foundation, в рамках предоставления службы Databricks может временно обрабатывать и хранить входные и выходные данные для предотвращения, обнаружения и устранения злоупотреблений или вредных использования. Входные данные и выходные данные изолированы от других клиентов, хранящихся в том же регионе, что и рабочая область в течение 30 дней, и доступна только для обнаружения и реагирования на проблемы безопасности или злоупотреблений. API-интерфейсы модели Foundation — это служба Databricks, то есть она соответствует границам расположения данных, реализованным Databricks Geos.
Дополнительные ресурсы
- Начните запрашивать LLMs в Databricks.
- Руководство по развертыванию и запросу пользовательской модели
- Общие сведения о создании приложений ИИ поколения на Databricks
- Развертывание пользовательских моделей.
- Переход на Обслуживание моделей
- Перенос оптимизированных конечных точек обслуживания LLM в подготовленную пропускную способность