Поделиться через


API модели Databricks Foundation

В этой статье представлен обзор API-интерфейсов модели Foundation в Azure Databricks. Он включает требования к использованию, поддерживаемым моделям и ограничениям.

Что такое API модели Databricks Foundation?

Служба модели ИИ мозаики теперь поддерживает API-интерфейсы модели Foundation, которые позволяют получать доступ к открытым моделям и запрашивать их из конечной точки обслуживания. С помощью API-интерфейсов модели Foundation можно быстро и легко создавать приложения, использующие высококачественную модель создания ИИ, не поддерживая собственное развертывание модели.

API-интерфейсы модели foundation предоставляются в двух режимах ценообразования:

  • Pay-per-token: это самый простой способ начать доступ к базовым моделям в Databricks и рекомендуется начать работу с API-интерфейсами модели Foundation. Этот режим не предназначен для приложений с высокой пропускной способностью или рабочих нагрузок рабочей среды.
  • Подготовленная пропускная способность: этот режим рекомендуется для всех рабочих нагрузок, особенно для рабочих нагрузок, требующих высокой пропускной способности, гарантий производительности, точно настроенных моделей или наличия дополнительных требований к безопасности. Подготовленные конечные точки пропускной способности доступны с сертификатами соответствия, такими как HIPAA.

Дополнительные сведения об использовании этих двух режимов и поддерживаемых моделей см. в api-интерфейсах модели Foundation.

Используя API-интерфейсы модели Foundation, можно:

  • Запрос обобщенного LLM для проверки действительности проекта перед вложением дополнительных ресурсов.
  • Запрос обобщенного LLM для создания быстрого подтверждения концепции для приложения на основе LLM перед вложением в обучение и развертывание пользовательской модели.
  • Используйте базовую модель, а также векторную базу данных для создания чат-бота с помощью получения дополненного поколения (RAG).
  • Замените собственные модели открытыми альтернативами для оптимизации затрат и производительности.
  • Эффективно сравнивайте LLM, чтобы увидеть, какой из лучших кандидатов для вашего варианта использования, или заменить рабочую модель более эффективной.
  • Создайте приложение LLM для разработки или рабочей среды на основе масштабируемого решения для обслуживания LLM с поддержкой SLA, которое может поддерживать пики рабочего трафика.

Требования

  • Маркер API Databricks для проверки подлинности запросов конечных точек.
  • Бессерверные вычисления (для подготовленных моделей пропускной способности).
  • Рабочая область в поддерживаемом регионе:

Примечание.

Сведения о подготовленных рабочих нагрузках пропускной способности, использующих базовую модель DBRX, см. в разделе об ограничениях api модели Foundation для доступности регионов.

Использование API-интерфейсов модели Foundation

Существует несколько вариантов использования API-интерфейсов модели Foundation.

API совместимы с OpenAI, поэтому для запроса можно использовать клиент OpenAI. Вы также можете использовать пользовательский интерфейс, пакет SDK для Python для моделей базовых моделей, пакет SDK для развертываний MLflow или REST API для запроса поддерживаемых моделей. Databricks рекомендует использовать клиентский пакет SDK OpenAI или API для расширенных взаимодействий и пользовательского интерфейса для пробной версии функции.

Примеры оценки см. в моделях основы запросов и внешних моделях .

API модели модели pay-per-token Foundation

Модели с оплатой за токены доступны в рабочей области Azure Databricks и рекомендуется приступить к работе. Чтобы получить доступ к ним в рабочей области, перейдите на вкладку "Обслуживание " на левой боковой панели. API-интерфейсы модели foundation находятся в верхней части представления списка конечных точек.

Список конечных точек обслуживания

В следующей таблице приведены поддерживаемые модели для оплаты за токен. Дополнительные сведения о модели см. в поддерживаемых моделях для получения дополнительных сведений о плате за токен .

Если вы хотите протестировать и общаться с этими моделями, это можно сделать с помощью игровой площадки искусственного интеллекта. Ознакомьтесь с чатом с LLMs и прототипом приложений GenAI с помощью ИИ-площадки.

Внимание

  • Начиная с 23 июля 2024 г., мета-Ллома-3.1-70B-Instruct заменяет поддержку мета-Ллома-3-70B-инструктажа в конечных точках api модели foundation.
  • Meta-Llama-3.1-405B-Instruct является крупнейшей открыто доступной моделью большого языка, созданной и обученной мета и распределенной Машинное обучение Azure с помощью каталога моделей AzureML.
  • Модель чата Llama 2 70B планируется для выхода на пенсию. После 30 октября 2024 г. эта модель больше не будет поддерживаться.
  • Теперь модели инструкций MPT 7B и MPT 30B Instruct теперь сняты. Ознакомьтесь с устаревшими моделями для рекомендуемых моделей замены.
Модель Тип задачи Конечная точка Примечания.
GTE Large (английский) Векторное представление databricks-gte-large-en Не создает нормализованные внедрения.
Мета-Ллома-3.1-70B-Instruct Чат databricks-meta-llama-3-1-70b-instruct
Meta-Llama-2-70B-Chat Чат databricks-llama-2-70b-chat См . ограничения API модели Foundation для доступности регионов.
Meta-Llama-3.1-405B-Instruct* Чат databricks-meta-llama-3-1-405b-instruct См . ограничения API модели Foundation для доступности регионов.
Указание DBRX Чат databricks-dbrx-instruct См . ограничения API модели Foundation для доступности регионов.
Инструкции Mixtral-8x7B Чат databricks-mixtral-8x7b-instruct См . ограничения API модели Foundation для доступности регионов.
BGE Large (английский) Векторное представление databricks-bge-large-en См . ограничения API модели Foundation для доступности регионов.

* Обратитесь к группе учетных записей Databricks, если при использовании этой модели возникают сбои конечных точек или ошибки стабилизации.

Api модели модели подготовки подготовленной пропускной способности

Подготовленная пропускная способность предоставляет конечные точки с оптимизированным выводом для рабочих нагрузок базовой модели, требующих гарантий производительности. Databricks рекомендует подготовленную пропускную способность для рабочих нагрузок. Пошаговые инструкции по развертыванию API-интерфейсов модели модели Foundation в подготовленном режиме см. в пошаговом руководстве по развертыванию API модели Foundation.

Поддержка подготовленной пропускной способности включает:

  • Базовые модели всех размеров, таких как база DBRX. К базовым моделям можно получить доступ с помощью Databricks Marketplace или скачать их из Hugging Face или другого внешнего источника и зарегистрировать их в каталоге Unity. Последний подход работает с любым точно настроенным вариантом поддерживаемых моделей независимо от используемого метода тонкой настройки.
  • Точно настроенные варианты базовых моделей, например LlamaGuard-7B. К ним относятся модели, которые настраиваются на основе собственных данных.
  • Полностью настраиваемые весы и маркеризаторы, такие как обученные с нуля или продолжающиеся предварительно обученные или другие варианты с использованием базовой архитектуры модели (например, CodeLlama).

В следующей таблице перечислены поддерживаемые архитектуры модели для подготовленной пропускной способности.

Внимание

Meta Llama 3.2 лицензирован в соответствии с лицензией сообщества LLAMA 3.2, © Meta Platform, Inc. Все права зарезервированы. Клиенты отвечают за соблюдение условий этой лицензии и политики допустимого использования Llama 3.2.

Meta Llama 3.1 лицензированы в соответствии с лицензией сообщества LLAMA 3.1, © Meta Platform, Inc. Все права зарезервированы. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.

архитектура модели; Типы задач Примечания.
Мета Лама 3.2 3B Чат или завершение
Мета Ллома 3.2 1B Чат или завершение
Мета Лама 3.1 Чат или завершение
Meta Llama 3 Чат или завершение
Мета Лама 2 Чат или завершение
DBRX Чат или завершение См . ограничения API модели Foundation для доступности регионов.
Mistral Чат или завершение
Mixtral Чат или завершение
MPT Чат или завершение
GTE версии 1.5 (английский) Векторное представление Не создает нормализованные внедрения.
BGE версии 1.5 (английский) Векторное представление

Ограничения

См . ограничения API модели Foundation.

Дополнительные ресурсы