Поделиться через


Ограничения и регионы обслуживания модели

В этой статье приведены ограничения и доступность регионов для обслуживания моделей ИИ Мозаики и поддерживаемых типов конечных точек.

Ограничения ресурсов и полезных данных

Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. Если у вас есть отзывы об этих ограничениях, обратитесь к группе учетной записи Databricks.

В следующей таблице перечислены ограничения ресурсов и полезных данных для конечных точек обслуживания модели.

Функция Степень детализации Лимит
Размер полезной нагрузки Для каждого запроса 16 МБ. Для конечных точек, обслуживающих базовые модели или внешние модели , ограничение составляет 4 МБ.
Число запросов в секунду (QPS) На рабочую область 200, но может быть увеличено до 25 000 или более, обратитесь к группе учетной записи Databricks.
Длительность выполнения модели Для каждого запроса 120 секунд
Использование памяти модели конечной точки ЦП На конечную точку 4 ГБ
Использование памяти модели конечной точки GPU На конечную точку Больше или равно назначенной памяти GPU зависит от размера рабочей нагрузки GPU
Подготовленная параллелизм Для каждой модели и рабочей области Параллелизм 200. Можно увеличить, обратитесь к команде по учетной записи Databricks.
Задержка накладных расходов Для каждого запроса Менее 50 миллисекунда
Скрипты инициализации Скрипты инициализации не поддерживаются.
Ограничения скорости оплаты за токены (API модели Foundation) На рабочую область Если для вашего варианта использования недостаточно указанных ниже ограничений, Databricks рекомендует использовать подготовленную пропускную способность.

— Лама 3.1 70B Инструктирует имеет ограничение в 2 запроса в секунду и 1200 запросов в час.
— Ллома 3.1 405B Инструктирует имеет ограничение в 1 запрос в секунду и 1200 запросов в час.
— Модель инструктажа DBRX имеет ограничение в 1 запрос в секунду.
— Микс-8x 7B Инструкция имеет ограничение скорости по умолчанию в 2 запроса в секунду.
— GtE Large (En) имеет ограничение скорости 150 запросов в секунду
— BGE Large (En) имеет ограничение скорости в 600 запросов в секунду.
Ограничения скорости api модели Foundation (подготовленная пропускная способность) На рабочую область 200

Ограничения сети и безопасности

  • Конечные точки обслуживания моделей защищены с помощью управления доступом и соблюдения правил входящего трафика, связанных с сетью, настроенных в рабочей области, таких как списки разрешений IP и Приватный канал.
  • Частное подключение (например, Приватный канал Azure) поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, обслуживающие пользовательские модели.
  • По умолчанию служба моделей не поддерживает Приватный канал внешних конечных точек (например, Azure OpenAI). Поддержка этой функции оценивается и реализуется на основе каждого региона. Дополнительные сведения см. в команде учетной записи Azure Databricks.
  • Служба моделей не предоставляет исправления безопасности для существующих образов моделей из-за риска дестабилизации рабочих развертываний. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.

Ограничения API-интерфейсов модели foundation

Примечание.

В рамках предоставления API-интерфейсов модели Foundation Databricks может обрабатывать данные за пределами региона, где были получены данные, но не за пределами соответствующего географического расположения.

Для рабочих нагрузок пропускной способности с оплатой за токен и подготовленных пропускной способности:

  • Только администраторы рабочей области могут изменять параметры управления, такие как ограничения скорости для конечных точек API модели Foundation. Чтобы изменить ограничения скорости, выполните следующие действия.
    1. Откройте пользовательский интерфейс обслуживания в рабочей области, чтобы увидеть конечные точки обслуживания.
    2. В меню kebab в конечной точке API-интерфейсов модели Foundation, которую вы хотите изменить, выберите "Просмотреть сведения".
    3. В меню kebab в правой верхней части страницы сведений о конечных точках выберите ограничение скорости изменения.
  • Модели внедрения большого размера GTE (En) не создают нормализованные внедрения.

Ограничения на оплату за токен

Ниже приведены ограничения, касающиеся рабочих нагрузок api модели Foundation для оплаты за токен .

  • Рабочие нагрузки с оплатой за токены не соответствуют требованиям HIPAA или профиля безопасности соответствия требованиям.
  • Модели инструкций GTE Large (En) и Meta Llama 3.1 70B Instruct доступны в поддерживаемых регионах ЕС и США.
  • Следующие модели оплаты за токен поддерживаются только в поддерживаемых регионах США api модели Foundation.
    • Мета Ллома 3.1 405B Инструктирует
    • Указание DBRX
    • Инструкции Mixtral-8x7B
    • BGE Large (en)

Ограничения подготовленной пропускной способности

Ниже приведены ограничения, относящиеся к api-интерфейсам модели Foundation, подготовленным рабочими нагрузками пропускной способности .

  • Подготовленная пропускная способность поддерживает профиль соответствия HIPAA и рекомендуется для рабочих нагрузок, требующих сертификации соответствия.
  • Чтобы использовать архитектуру модели DBRX для подготовленной рабочей нагрузки пропускной способности , конечная точка обслуживания должна находиться в одном из следующих регионов:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • В следующей таблице показана доступность поддерживаемых моделей Meta Llama 3.1 и 3.2. Сведения о развертывании точно настроенных базовых моделей см. в руководстве по развертыванию точно настроенных моделей.
Вариант модели Meta Llama Регионы
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

Доступность по регионам

Примечание.

Если требуется конечная точка в неподдерживаемом регионе, обратитесь к группе учетной записи Azure Databricks.

Если рабочая область развернута в регионе, поддерживающем обслуживание моделей, но обслуживается плоскостем управления в неподдерживаемом регионе, рабочая область не поддерживает обслуживание моделей. Если вы пытаетесь использовать модель, обслуживаемую в такой рабочей области, вы увидите сообщение об ошибке о том, что ваша рабочая область не поддерживается. Дополнительные сведения см. в команде учетной записи Azure Databricks.

Дополнительные сведения о региональной доступности функций см. в разделе "Модель обслуживания региональной доступности".