Обслуживание моделей с помощью Azure Databricks
В этой статье описывается обслуживание моделей Azure Databricks, включая преимущества и ограничения.
Что такое обслуживание моделей?
Служба моделей Databricks предоставляет единый интерфейс для развертывания, управления и запроса моделей ИИ. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение.
Служба модели предоставляет высокодоступную и низкую задержку службы для развертывания моделей. Служба автоматически масштабируется до изменения спроса и экономии затрат на инфраструктуру при оптимизации производительности задержки. Эта функция использует бессерверные вычисления. Дополнительные сведения см. на странице цен на обслуживание моделей.
Обслуживание модели поддерживает обслуживание:
- Настраиваемые модели. Это модели Python, упакованные в формате MLflow. Их можно зарегистрировать в каталоге Unity или в реестре моделей рабочей области. Примеры включают scikit-learn, XGBoost, PyTorch и модели преобразователя распознавания лиц.
- Современные открытые модели, доступные API-интерфейсами модели Foundation. Эти модели являются курируемыми архитектурами базовых моделей, поддерживающими оптимизированное вывод. Базовые модели, такие как Llama-2-70B-chat, BGE-Large и Mistral-7B, доступны для немедленного использования с ценами на токен , а рабочие нагрузки, требующие гарантий производительности и точно настроенных вариантов модели, можно развернуть с подготовленной пропускной способностью.
- Внешние модели. Это модели, размещенные за пределами Databricks. Конечные точки, обслуживающие внешние модели, могут централизованно управляться, и клиенты могут устанавливать ограничения скорости и управление доступом для них. К примерам относятся базовые модели, такие как, GPT-4 OpenAI, Anthropic в Клоде и другие.
Примечание.
Вы можете взаимодействовать с поддерживаемыми крупными языковыми моделями с помощью игровой площадки ИИ. Платформа искусственного интеллекта — это среда чата, в которой можно тестировать, запрашивать и сравнивать LLM. Эта функция доступна в рабочей области Azure Databricks.
Служба моделей предлагает унифицированный REST API и API развертывания MLflow для задач CRUD и запросов. Кроме того, он предоставляет единый пользовательский интерфейс для управления всеми моделями и соответствующими конечными точками обслуживания. Вы также можете получить доступ к моделям непосредственно из SQL с помощью функций искусственного интеллекта для простой интеграции с рабочими процессами аналитики.
Вводное руководство по использованию пользовательских моделей в Azure Databricks см . в руководстве по развертыванию и запросу пользовательской модели.
Руководство по началу работы с запросом базовой модели в Databricks см. в статье "Начало работы с запросами LLM на Databricks".
Зачем использовать обслуживание моделей?
Развертывание и запрос любых моделей. Служба моделей предоставляет единый интерфейс, который позволяет управлять всеми моделями в одном расположении и запрашивать их с помощью одного API независимо от того, размещаются ли они в Databricks или на внешних устройствах. Этот подход упрощает процесс экспериментирования с моделями, настройкой и развертыванием моделей в рабочей среде в различных облаках и поставщиках.
Безопасно настраивайте модели с частными данными: на основе платформы аналитики данных служба моделей упрощает интеграцию функций и внедрения в модели с помощью собственной интеграции с Хранилищем компонентов Databricks и векторным поиском Databricks. Для еще более улучшенной точности и контекстного понимания модели модели можно точно настраивать с помощью собственных данных и развертывать без усилий в службе моделей.
Управление моделями и мониторингом. Пользовательский интерфейс обслуживания позволяет централизованно управлять всеми конечными точками модели в одном месте, включая те, которые размещаются во внешнем расположении. Вы можете управлять разрешениями, отслеживать и задавать ограничения использования, а также отслеживать качество всех типов моделей. Это позволяет демократизировать доступ к SaaS и открывать LLM в организации, обеспечивая наличие соответствующих охранников.
Сокращение затрат с помощью оптимизированного вывода и быстрого масштабирования: Databricks реализовала ряд оптимизаций, чтобы обеспечить оптимальную пропускную способность и задержку для больших моделей. Конечные точки автоматически масштабируется вверх или вниз, чтобы удовлетворить изменения спроса, экономя затраты на инфраструктуру при оптимизации производительности задержки.
Обеспечение надежности и безопасности для службы моделей: служба моделей предназначена для обеспечения высокой доступности, использования рабочей среды с низкой задержкой и может поддерживать более 25 КБ запросов в секунду с задержкой накладных расходов менее 50 мс. Рабочие нагрузки обслуживания защищены несколькими уровнями безопасности, обеспечивая безопасную и надежную среду для даже самых конфиденциальных задач.
Требования
- Зарегистрированная модель в каталоге Unity или реестре моделей рабочей области.
- Разрешения для зарегистрированных моделей, как описано в списке ACL конечных точек обслуживания.
- MLflow 1.29 или более поздней версии
Включение службы моделей для рабочей области
Дополнительные шаги не требуются для включения службы моделей в рабочей области.
Ограничения и доступность в регионах
Служба моделей Databricks накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. См . ограничения и регионы обслуживания моделей. Если у вас есть отзывы об этих ограничениях или конечной точке в неподдерживаемом регионе, обратитесь к группе учетной записи Databricks.
Защита данных в службе "Модель"
Databricks серьезно относится к безопасности данных. Databricks понимает важность данных, которые вы анализируете с помощью службы моделей Databricks, и реализует следующие элементы управления безопасностью для защиты данных.
- Каждый запрос клиента к службе модели логически изолирован, прошел проверку подлинности и авторизован.
- Служба моделей Databricks шифрует все неактивных данных (AES-256) и передает (TLS 1.2+).
Для всех платных учетных записей Служба моделей Databricks не использует входные данные пользователя, отправленные в службу или выходные данные службы для обучения любых моделей или улучшения любых служб Databricks.
Для API модели Databricks Foundation, в рамках предоставления службы Databricks может временно обрабатывать и хранить входные и выходные данные для предотвращения, обнаружения и устранения злоупотреблений или вредных использования. Входные данные и выходные данные изолированы от других клиентов, хранящихся в том же регионе, что и рабочая область в течение 30 дней, и доступна только для обнаружения и реагирования на проблемы безопасности или злоупотреблений.
Дополнительные ресурсы
- Начните запрашивать LLMs в Databricks.
- Руководство по развертыванию и запросу пользовательской модели
- Развертывание моделей основы создания искусственного интеллекта
- Развертывание пользовательских моделей.
- Переход на Обслуживание моделей
- Перенос оптимизированных конечных точек обслуживания LLM в подготовленную пропускную способность
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по