API модели Databricks Foundation

В этой статье представлен обзор API-интерфейсов модели Foundation в Azure Databricks. Он включает требования к использованию, поддерживаемым моделям и ограничениям.

Что такое API модели Databricks Foundation?

Служба моделей Databricks теперь поддерживает API-интерфейсы модели Foundation, которые позволяют получать доступ к открытым моделям и запрашивать их из конечной точки обслуживания. С помощью API-интерфейсов модели Foundation можно быстро и легко создавать приложения, использующие высококачественную модель создания ИИ, не поддерживая собственное развертывание модели.

API-интерфейсы модели foundation предоставляются в двух режимах ценообразования:

  • Pay-per-token: это самый простой способ начать доступ к базовым моделям в Databricks и рекомендуется начать работу с API-интерфейсами модели Foundation. Этот режим не предназначен для приложений с высокой пропускной способностью или рабочих нагрузок рабочей среды.
  • Подготовленная пропускная способность: этот режим рекомендуется для всех рабочих нагрузок, особенно для рабочих нагрузок, требующих высокой пропускной способности, гарантий производительности, точно настроенных моделей или наличия дополнительных требований к безопасности. Подготовленные конечные точки пропускной способности доступны с сертификатами соответствия, такими как HIPAA.

Дополнительные сведения об использовании этих двух режимов и поддерживаемых моделей см. в api-интерфейсах модели Foundation.

Используя API-интерфейсы модели Foundation, можно:

  • Запрос обобщенного LLM для проверки действительности проекта перед вложением дополнительных ресурсов.
  • Запрос обобщенного LLM для создания быстрого подтверждения концепции для приложения на основе LLM перед вложением в обучение и развертывание пользовательской модели.
  • Используйте базовую модель, а также векторную базу данных для создания чат-бота с помощью получения дополненного поколения (RAG).
  • Замените собственные модели открытыми альтернативами для оптимизации затрат и производительности.
  • Эффективно сравнивайте LLM, чтобы увидеть, какой из лучших кандидатов для вашего варианта использования, или заменить рабочую модель более эффективной.
  • Создайте приложение LLM для разработки или рабочей среды на основе масштабируемого решения для обслуживания LLM с поддержкой SLA, которое может поддерживать пики рабочего трафика.

Требования

  • Маркер API Databricks для проверки подлинности запросов конечных точек.
  • Бессерверные вычисления (для подготовленных моделей пропускной способности).
  • Рабочая область в поддерживаемом регионе:

Примечание.

Сведения о подготовленных рабочих нагрузках пропускной способности, использующих базовую модель DBRX, см. в разделе об ограничениях api модели Foundation для доступности регионов.

Использование API-интерфейсов модели Foundation

Существует несколько вариантов использования API-интерфейсов модели Foundation.

API совместимы с OpenAI, поэтому для запроса можно использовать даже клиент OpenAI. Вы также можете использовать пользовательский интерфейс, пакет SDK для Python для моделей базовых моделей, пакет SDK для развертываний MLflow или REST API для запроса поддерживаемых моделей. Databricks рекомендует использовать пакет SDK для развертываний MLflow или REST API для расширенных взаимодействий и пользовательского интерфейса, чтобы попробовать эту функцию.

Примеры оценки см . в моделях основы запросов.

API модели модели pay-per-token Foundation

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Модели с оплатой за токены доступны в рабочей области Azure Databricks и рекомендуется приступить к работе. Чтобы получить доступ к ним в рабочей области, перейдите на вкладку "Обслуживание " на левой боковой панели. API-интерфейсы модели foundation находятся в верхней части представления списка конечных точек.

Список конечных точек обслуживания

В следующей таблице приведены поддерживаемые модели для оплаты за токен. Дополнительные сведения о модели см. в поддерживаемых моделях для получения дополнительных сведений о плате за токен .

Если вы хотите протестировать и общаться с этими моделями, это можно сделать с помощью игровой площадки искусственного интеллекта. См. раздел чата с поддерживаемыми LLM с помощью ИИ-площадки.

Модель Тип задачи Конечная точка
Указание DBRX Чат databricks-dbrx-instruct
Мета-Лама-3-70B-Instruct Чат databricks-meta-llama-3-70b-instruct
Meta-Llama-2-70B-Chat Чат databricks-llama-2-70b-chat
Инструкции Mixtral-8x7B Чат databricks-mixtral-8x7b-instruct
Инструкции MPT 7B Completion databricks-mpt-7b-instruct
Инструкции MPT 30B Completion databricks-mpt-30b-instruct
BGE Large (английский) Векторное представление databricks-bge-large-en

Api модели модели подготовки подготовленной пропускной способности

Подготовленная пропускная способность общедоступна, и Databricks рекомендует подготовленную пропускную способность для рабочих нагрузок. Подготовленная пропускная способность предоставляет конечные точки с оптимизированным выводом для рабочих нагрузок базовой модели, требующих гарантий производительности. Пошаговые инструкции по развертыванию API-интерфейсов модели модели Foundation в подготовленном режиме см. в пошаговом руководстве по развертыванию API модели Foundation.

Поддержка подготовленной пропускной способности включает:

  • Базовые модели всех размеров, таких как база DBRX. К базовым моделям можно получить доступ с помощью Databricks Marketplace или скачать их из Hugging Face или другого внешнего источника и зарегистрировать их в каталоге Unity. Последний подход работает с любым точно настроенным вариантом поддерживаемых моделей независимо от используемого метода тонкой настройки.
  • Точно настроенные варианты базовых моделей, например LlamaGuard-7B. К ним относятся модели, которые настраиваются на основе собственных данных.
  • Полностью настраиваемые весовые и маркеризаторы, такие как обученные с нуля или продолжающиеся предварительно обученные или другие варианты с использованием базовой архитектуры модели (например, CodeLlama, Yi-34B-Chat или SOLAR-10.7B).

В следующей таблице перечислены поддерживаемые архитектуры модели для подготовленной пропускной способности.

архитектура модели; Типы задач Примечания.
DBRX Чат или завершение См . ограничения API модели Foundation для доступности регионов.
Мета Лама 3 Чат или завершение
Мета Лама 2 Чат или завершение
Mistral Чат или завершение
Mixtral Чат или завершение
MPT Чат или завершение
BGE версии 1.5 (английский) Векторное представление

Ограничения

См . ограничения и регионы обслуживания моделей.

Дополнительные ресурсы