API модели Databricks Foundation
В этой статье представлен обзор API-интерфейсов модели Foundation в Azure Databricks. Он включает требования к использованию, поддерживаемым моделям и ограничениям.
Что такое API модели Databricks Foundation?
Служба модели ИИ мозаики теперь поддерживает API-интерфейсы модели Foundation, которые позволяют получать доступ к открытым моделям и запрашивать их из конечной точки обслуживания. С помощью API-интерфейсов модели Foundation можно быстро и легко создавать приложения, использующие высококачественную модель создания ИИ, не поддерживая собственное развертывание модели. API модели Foundation — это назначенная служба Databricks, которая означает, что она использует Databricks Geos для управления расположением данных при обработке содержимого клиента.
API-интерфейсы модели foundation предоставляются в двух режимах ценообразования:
- Pay-per-token: это самый простой способ начать доступ к базовым моделям в Databricks и рекомендуется начать работу с API-интерфейсами модели Foundation. Этот режим не предназначен для приложений с высокой пропускной способностью или рабочих нагрузок рабочей среды.
- Подготовленная пропускная способность: этот режим рекомендуется для всех рабочих нагрузок, особенно для рабочих нагрузок, требующих высокой пропускной способности, гарантий производительности, точно настроенных моделей или наличия дополнительных требований к безопасности. Подготовленные конечные точки пропускной способности доступны с сертификатами соответствия, такими как HIPAA.
Дополнительные сведения об использовании этих двух режимов и поддерживаемых моделей см. в api-интерфейсах модели Foundation.
Используя API-интерфейсы модели Foundation, можно:
- Запрос обобщенного LLM для проверки действительности проекта перед вложением дополнительных ресурсов.
- Запрос обобщенного LLM для создания быстрого подтверждения концепции для приложения на основе LLM перед вложением в обучение и развертывание пользовательской модели.
- Используйте базовую модель, а также векторную базу данных для создания чат-бота с помощью получения дополненного поколения (RAG).
- Замените собственные модели открытыми альтернативами для оптимизации затрат и производительности.
- Эффективно сравнивайте LLM, чтобы увидеть, какой из лучших кандидатов для вашего варианта использования, или заменить рабочую модель более эффективной.
- Создайте приложение LLM для разработки или рабочей среды на основе масштабируемого решения для обслуживания LLM с поддержкой SLA, которое может поддерживать пики рабочего трафика.
Требования
- Маркер API Databricks для проверки подлинности запросов конечных точек.
- Бессерверные вычисления (для подготовленных моделей пропускной способности).
- Рабочая область в поддерживаемом регионе:
- Регионы с оплатой за токен.
- Подготовленные регионы пропускной способности.
Использование API-интерфейсов модели Foundation
Существует несколько вариантов использования API-интерфейсов модели Foundation.
API совместимы с OpenAI, поэтому для запроса можно использовать клиент OpenAI. Вы также можете использовать пользовательский интерфейс, пакет SDK для Python для моделей базовых моделей, пакет SDK для развертываний MLflow или REST API для запроса поддерживаемых моделей. Databricks рекомендует использовать клиентский пакет SDK OpenAI или API для расширенных взаимодействий и пользовательского интерфейса для пробной версии функции.
Примеры оценки см. в моделях создания запросов и искусственного интеллекта .
API модели модели pay-per-token Foundation
Модели с оплатой за токены доступны в рабочей области Azure Databricks и рекомендуется приступить к работе. Чтобы получить доступ к ним в рабочей области, перейдите на вкладку "Обслуживание " на левой боковой панели. API-интерфейсы модели foundation находятся в верхней части представления списка конечных точек.
В следующей таблице приведены поддерживаемые модели для оплаты за токен. Дополнительные сведения о модели см. в поддерживаемых моделях для получения дополнительных сведений о плате за токен .
Если вы хотите протестировать и общаться с этими моделями, это можно сделать с помощью игровой площадки искусственного интеллекта. Ознакомьтесь с чатом с LLMs и прототипом приложений GenAI с помощью ИИ-площадки.
Внимание
- Начиная с 23 июля 2024 г., мета-Ллома-3.1-70B-Instruct заменяет поддержку мета-Ллома-3-70B-инструктажа в конечных точках api модели foundation.
- Meta-Llama-3.1-405B-Instruct является крупнейшей открыто доступной моделью большого языка, созданной и обученной мета и распределенной Машинное обучение Azure с помощью каталога моделей AzureML.
- Следующие модели теперь отставаются. Ознакомьтесь с устаревшими моделями для рекомендуемых моделей замены.
- Ллома 2 70B Чат
- Инструкции MPT 7B
- Инструкции MPT 30B
Модель | Тип задачи | Конечная точка | Примечания. |
---|---|---|---|
GTE Large (английский) | Векторное представление | databricks-gte-large-en |
Не создает нормализованные внедрения. |
Мета-Ллома-3.1-70B-Instruct | Чат | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | Чат | databricks-meta-llama-3-1-405b-instruct |
См . ограничения API модели Foundation для доступности регионов. |
Указание DBRX | Чат | databricks-dbrx-instruct |
См . ограничения API модели Foundation для доступности регионов. |
Инструкции Mixtral-8x7B | Чат | databricks-mixtral-8x7b-instruct |
См . ограничения API модели Foundation для доступности регионов. |
BGE Large (английский) | Векторное представление | databricks-bge-large-en |
См . ограничения API модели Foundation для доступности регионов. |
*
Обратитесь к группе учетных записей Databricks, если при использовании этой модели возникают сбои конечных точек или ошибки стабилизации.
- Сведения о том, как выполнять запросы к API-интерфейсам модели Foundation, см. в руководстве по созданию моделей запросов.
- Дополнительные сведения о необходимых параметрах и синтаксисе см . в справочнике по REST API модели Foundation.
Api модели модели подготовки подготовленной пропускной способности
Подготовленная пропускная способность предоставляет конечные точки с оптимизированным выводом для рабочих нагрузок базовой модели, требующих гарантий производительности. Databricks рекомендует подготовленную пропускную способность для рабочих нагрузок. Пошаговые инструкции по развертыванию API-интерфейсов модели модели Foundation в подготовленном режиме см. в пошаговом руководстве по развертыванию API модели Foundation.
Поддержка подготовленной пропускной способности включает:
- Базовые модели всех размеров, таких как база DBRX. К базовым моделям можно получить доступ с помощью Databricks Marketplace или скачать их из Hugging Face или другого внешнего источника и зарегистрировать их в каталоге Unity. Последний подход работает с любым точно настроенным вариантом поддерживаемых моделей независимо от используемого метода тонкой настройки.
- Точно настроенные варианты базовых моделей, например LlamaGuard-7B или
meta-llama/Llama-3.1-8B
. К ним относятся модели, которые настраиваются на основе собственных данных. - Полностью настраиваемые весы и маркеризаторы, такие как обученные с нуля или продолжающиеся предварительно обученные или другие варианты с использованием базовой архитектуры модели (например, CodeLlama).
В следующей таблице перечислены поддерживаемые архитектуры модели для подготовленной пропускной способности.
Внимание
Meta Llama 3.2 лицензирован в соответствии с лицензией сообщества LLAMA 3.2, © Meta Platform, Inc. Все права зарезервированы. Клиенты отвечают за соблюдение условий этой лицензии и политики допустимого использования Llama 3.2.
Meta Llama 3.1 лицензированы в соответствии с лицензией сообщества LLAMA 3.1, © Meta Platform, Inc. Все права зарезервированы. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.
архитектура модели; | Типы задач | Примечания. |
---|---|---|
Мета Лама 3.2 3B | Чат или завершение | Сведения о поддерживаемых вариантах модели и доступности регионов см. в разделе "Подготовленные ограничения пропускной способности". |
Мета Ллома 3.2 1B | Чат или завершение | Сведения о поддерживаемых вариантах модели и доступности регионов см. в разделе "Подготовленные ограничения пропускной способности". |
Мета Лама 3.1 | Чат или завершение | Сведения о поддерживаемых вариантах модели и доступности регионов см. в разделе "Подготовленные ограничения пропускной способности". |
Meta Llama 3 | Чат или завершение | |
Мета Лама 2 | Чат или завершение | |
DBRX | Чат или завершение | Дополнительные сведения о доступности региона см. в разделе "Подготовленные ограничения пропускной способности". |
Mistral | Чат или завершение | |
Mixtral | Чат или завершение | |
MPT | Чат или завершение | |
GTE версии 1.5 (английский) | Векторное представление | Не создает нормализованные внедрения. |
BGE версии 1.5 (английский) | Векторное представление |
Ограничения
См . ограничения API модели Foundation.
Дополнительные ресурсы
- Модели создания запросов и искусственного интеллекта
- Api модели модели подготовки подготовленной пропускной способности
- Пакетное вывод с помощью API-интерфейсов модели Foundation, подготовленных пропускной способности
- Поддерживаемые модели для оплаты за токен
- Справочник по REST API модели Foundation