Ограничения и регионы обслуживания модели
В этой статье приведены ограничения и доступность регионов для обслуживания моделей ИИ Мозаики и поддерживаемых типов конечных точек.
Ограничения ресурсов и полезных данных
Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. Если у вас есть отзывы об этих ограничениях, обратитесь к группе учетной записи Databricks.
В следующей таблице перечислены ограничения ресурсов и полезных данных для конечных точек обслуживания модели.
Функция | Степень детализации | Лимит |
---|---|---|
Размер полезной нагрузки | Для каждого запроса | 16 МБ. Для конечных точек, обслуживающих базовые модели или внешние модели , ограничение составляет 4 МБ. |
Число запросов в секунду (QPS) | На рабочую область | 200, но может быть увеличено до 25 000 или более, обратитесь к группе учетной записи Databricks. |
Длительность выполнения модели | Для каждого запроса | 120 секунд |
Использование памяти модели конечной точки ЦП | На конечную точку | 4 ГБ |
Использование памяти модели конечной точки GPU | На конечную точку | Больше или равно назначенной памяти GPU зависит от размера рабочей нагрузки GPU |
Подготовленная параллелизм | Для каждой модели и рабочей области | Параллелизм 200. Можно увеличить, обратитесь к команде по учетной записи Databricks. |
Задержка накладных расходов | Для каждого запроса | Менее 50 миллисекунда |
Скрипты инициализации | Скрипты инициализации не поддерживаются. | |
Ограничения скорости оплаты за токены (API модели Foundation) | На рабочую область | Если для вашего варианта использования недостаточно указанных ниже ограничений, Databricks рекомендует использовать подготовленную пропускную способность. — Лама 3.1 70B Инструктирует имеет ограничение в 2 запроса в секунду и 1200 запросов в час. — Ллома 3.1 405B Инструктирует имеет ограничение в 1 запрос в секунду и 1200 запросов в час. — Модель инструктажа DBRX имеет ограничение в 1 запрос в секунду. — Микс-8x 7B Инструкция имеет ограничение скорости по умолчанию в 2 запроса в секунду. — GtE Large (En) имеет ограничение скорости 150 запросов в секунду — BGE Large (En) имеет ограничение скорости в 600 запросов в секунду. |
Ограничения скорости api модели Foundation (подготовленная пропускная способность) | На рабочую область | 200 |
Ограничения сети и безопасности
- Конечные точки обслуживания моделей защищены с помощью управления доступом и соблюдения правил входящего трафика, связанных с сетью, настроенных в рабочей области, таких как списки разрешений IP и Приватный канал.
- Частное подключение (например, Приватный канал Azure) поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, обслуживающие пользовательские модели.
- По умолчанию служба моделей не поддерживает Приватный канал внешних конечных точек (например, Azure OpenAI). Поддержка этой функции оценивается и реализуется на основе каждого региона. Дополнительные сведения см. в команде учетной записи Azure Databricks.
- Служба моделей не предоставляет исправления безопасности для существующих образов моделей из-за риска дестабилизации рабочих развертываний. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.
Ограничения API-интерфейсов модели foundation
Примечание.
В рамках предоставления API-интерфейсов модели Foundation Databricks может обрабатывать данные за пределами региона, где были получены данные, но не за пределами соответствующего географического расположения.
Для рабочих нагрузок пропускной способности с оплатой за токен и подготовленных пропускной способности:
- Только администраторы рабочей области могут изменять параметры управления, такие как ограничения скорости для конечных точек API модели Foundation. Чтобы изменить ограничения скорости, выполните следующие действия.
- Откройте пользовательский интерфейс обслуживания в рабочей области, чтобы увидеть конечные точки обслуживания.
- В меню kebab в конечной точке API-интерфейсов модели Foundation, которую вы хотите изменить, выберите "Просмотреть сведения".
- В меню kebab в правой верхней части страницы сведений о конечных точках выберите ограничение скорости изменения.
- Модели внедрения большого размера GTE (En) не создают нормализованные внедрения.
Ограничения на оплату за токен
Ниже приведены ограничения, касающиеся рабочих нагрузок api модели Foundation для оплаты за токен .
- Рабочие нагрузки с оплатой за токены не соответствуют требованиям HIPAA или профиля безопасности соответствия требованиям.
- Модели инструкций GTE Large (En) и Meta Llama 3.1 70B Instruct доступны в поддерживаемых регионах ЕС и США.
- Следующие модели оплаты за токен поддерживаются только в поддерживаемых регионах США api модели Foundation.
- Мета Ллома 3.1 405B Инструктирует
- Указание DBRX
- Инструкции Mixtral-8x7B
- BGE Large (en)
Ограничения подготовленной пропускной способности
Ниже приведены ограничения, относящиеся к api-интерфейсам модели Foundation, подготовленным рабочими нагрузками пропускной способности .
- Подготовленная пропускная способность поддерживает профиль соответствия HIPAA и рекомендуется для рабочих нагрузок, требующих сертификации соответствия.
- Чтобы использовать архитектуру модели DBRX для подготовленной рабочей нагрузки пропускной способности , конечная точка обслуживания должна находиться в одном из следующих регионов:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- В следующей таблице показана доступность поддерживаемых моделей Meta Llama 3.1 и 3.2. Сведения о развертывании точно настроенных базовых моделей см. в руководстве по развертыванию точно настроенных моделей.
Вариант модели Meta Llama | Регионы |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-8B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-70B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-3B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
Доступность по регионам
Примечание.
Если требуется конечная точка в неподдерживаемом регионе, обратитесь к группе учетной записи Azure Databricks.
Если рабочая область развернута в регионе, поддерживающем обслуживание моделей, но обслуживается плоскостем управления в неподдерживаемом регионе, рабочая область не поддерживает обслуживание моделей. Если вы пытаетесь использовать модель, обслуживаемую в такой рабочей области, вы увидите сообщение об ошибке о том, что ваша рабочая область не поддерживается. Дополнительные сведения см. в команде учетной записи Azure Databricks.
Дополнительные сведения о региональной доступности функций см. в разделе "Модель обслуживания региональной доступности".